【摘要】在國際關(guān)系視角下，人工智能對齊不僅是技術(shù)風(fēng)險治理的核心議題，更關(guān)乎未來全球秩序穩(wěn)定性。近年來，人工智能對齊研究逐步從假定個體目標獨立性的“直接對齊”延伸至更具結(jié)構(gòu)性的“社會對齊”，在對齊過程中納入偏好的外部性和群體排序等宏觀層面問題。進一步看，人工智能對齊還不可避免地涉及價值沖突、制度協(xié)調(diào)和地緣政治張力，亟需在全球政治框架中予以審視，確保由人類主導(dǎo)的全球秩序的功能和價值，即實現(xiàn)“秩序?qū)R”。人工智能正在與人類形成新型且復(fù)雜的“委托-代理”關(guān)系，不僅影響既有全球秩序的運行邏輯，更可能演化為秩序的一部分。國際關(guān)系學(xué)能為對齊提供概念框架和分析工具以識別和解決“委托人問題”，揭示對齊的結(jié)構(gòu)性挑戰(zhàn)和政治本質(zhì)。唯有通過政治妥協(xié)和彈性治理，方能防止人工智能淪為地緣博弈工具，從而釋放其造福人類的潛力。

【關(guān)鍵詞】人工智能秩序對齊委托-代理錯位風(fēng)險

【中圖分類號】TP18/D815 【文獻標識碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2025.09.008

【作者簡介】龐珣，北京大學(xué)國際關(guān)系學(xué)院教授、北京大學(xué)全球風(fēng)險政治分析實驗室主任。研究方向為全球風(fēng)險政治與治理、經(jīng)濟與科技的地緣政治與安全、計算政治學(xué)、社會科學(xué)統(tǒng)計與數(shù)智方法。主要著作有《全球治理中的金磚國家外援合作》（專著）、《人工智能賦能社會科學(xué)研究探析——生成式行動者、復(fù)雜因果分析與人機科研協(xié)同》（論文）、《反思與重構(gòu)：全球安全與全球治理的風(fēng)險政治理論及方法》（論文）等。

人工智能對齊的國際關(guān)系分析

人工智能對齊（AI alignment）旨在確保人工智能系統(tǒng)的目標和行為與人類的意圖、利益和價值觀等保持一致，從而避免意外出現(xiàn)的負面后果。[1]這不僅是關(guān)于人工智能倫理和安全的核心研究議題，也是技術(shù)風(fēng)險治理中的關(guān)鍵任務(wù)和長期挑戰(zhàn)。[2]當前，相關(guān)研究主要聚焦模型的行為可控性和目標一致性，認為人工智能對齊主要是借助技術(shù)手段（如優(yōu)化算法和反饋機制等）來加以解決的問題。[3]然而，人工智能對齊的意涵和挑戰(zhàn)遠不止于此，它涉及廣泛而多元的利益和深層的價值維度，是關(guān)于全球性復(fù)雜風(fēng)險的治理議題。[4]正因如此，在人工智能對齊領(lǐng)域中，構(gòu)建對齊目標和過程的概念框架正在成為一項重要任務(wù)，以期在目標函數(shù)中納入利益和偏好的外部性，探究如何通過對群體目標的排序和加總來表達社會性福利。[5]隨著哲學(xué)家和社會科學(xué)家越來越多的加入，人工智能對齊日益成為一項融合工程技術(shù)、哲學(xué)思辨和社會科學(xué)分析的復(fù)雜跨學(xué)科任務(wù)。

國際關(guān)系學(xué)對人工智能的發(fā)展給予了高度關(guān)注，這主要表現(xiàn)為聚焦國家間技術(shù)競爭所引發(fā)的戰(zhàn)略風(fēng)險以及關(guān)于技術(shù)標準和監(jiān)管制度的國際競合。[6]這些探討極少涉及人工智能對齊問題，而是傾向于視其為純粹技術(shù)議題，從而難以看到國際關(guān)系學(xué)對這一重大問題可能作出的貢獻。然而，如果缺乏從人工智能對齊視角來討論技術(shù)的戰(zhàn)略風(fēng)險，國關(guān)學(xué)者在思考和分析人工智能風(fēng)險治理時就可能缺乏有效的切入點和明確的問題意識，分析和觀點容易流于抽象愿景的表達和對技術(shù)的一味警惕。同時，如果缺乏全球宏觀視野和國際政治理論框架，人工智能對齊領(lǐng)域的工作也難以充分考量技術(shù)系統(tǒng)與國際秩序的同構(gòu)關(guān)系，可能導(dǎo)致狹隘和局部的對齊，不僅會強化全球數(shù)字分裂，還將背離人工智能對齊初衷，產(chǎn)生新的結(jié)構(gòu)性失調(diào)和失控。

因此，從國際關(guān)系理論視角審視人工智能對齊有其必要性和重要性。人工智能對齊不僅是技術(shù)風(fēng)險治理的操作基礎(chǔ)，更應(yīng)被視為支撐全球秩序穩(wěn)定的微觀機制。唯有在全球政治框架內(nèi)對其加以理解，才能有效應(yīng)對人工智能可能帶來的整體性和文明級挑戰(zhàn)。本文對秩序和對齊的關(guān)系進行國際政治學(xué)分析，提出“秩序?qū)R”概念，在“委托-代理”理論框架下探討“秩序?qū)R”的理論基礎(chǔ)和核心問題。人工智能正在作為非傳統(tǒng)代理人（non-traditional agent）與人類建立起廣泛的“委托-代理”關(guān)系，這意味著對齊任務(wù)中的核心挑戰(zhàn)不是代理人問題，而是“委托人問題”（principal problem），即如何在地緣政治分化的全球現(xiàn)狀下，就人工智能系統(tǒng)的對齊目標進行正當性構(gòu)建、價值協(xié)商和沖突協(xié)調(diào)。如何解決委托人問題不僅影響人工智能系統(tǒng)的可治理性，也關(guān)乎全球政治秩序的未來走向。

秩序?qū)R意味著，人工智能對齊是一個“二階段對齊模型”。第一階段的對齊發(fā)生在人類之間，通過全球范圍內(nèi)的政治協(xié)商和寬容妥協(xié)，形成對全球基本秩序目標的最大共識。[7]第二階段發(fā)生在人機之間，即借助技術(shù)路徑和算法機制來實施人工智能系統(tǒng)與上述共識目標的對齊。國際關(guān)系學(xué)可為第一階段的對齊提供理論框架，尤其有助于在對齊任務(wù)中妥善納入對政治本質(zhì)和地緣風(fēng)險的理解。政治是一個協(xié)調(diào)沖突性多元利益以及實現(xiàn)價值觀妥協(xié)和制度調(diào)適的動態(tài)過程，可被視為對偏好和利益的經(jīng)驗性而非規(guī)范性的“加總”機制。[8]在人工智能發(fā)展路徑高度不確定和國家間利益價值分歧顯著的現(xiàn)實中，發(fā)揮國際政治的加總機制，對于人工智能的秩序?qū)R至關(guān)重要。人工智能的秩序?qū)R應(yīng)直面主權(quán)國家體系的地緣政治現(xiàn)實，充分考慮技術(shù)系統(tǒng)與局部目標進行“完美對齊”后加速和放大地緣政治競爭的災(zāi)難性風(fēng)險；同時，避免這種風(fēng)險要求對齊的核心為以全球政治妥協(xié)為基礎(chǔ)的彈性治理。[9]人工智能對齊任務(wù)遠遠超出了技術(shù)范疇，而是取決于人類如何在全球范圍內(nèi)構(gòu)建共同治理框架。

人工智能對齊：超越技術(shù)的技術(shù)風(fēng)險治理

人工智能風(fēng)險治理與對齊任務(wù)。隨著人工智能的快速演進，公眾、學(xué)界和政界圍繞其未來發(fā)展形成了矛盾交織的兩種敘事。第一種敘事高度期待人工智能突破人類認知和行動邊界，將其視為推動生產(chǎn)力發(fā)展和科技創(chuàng)新的發(fā)動機。[10]另一種敘事則籠罩著通用人工智能（AGI）或超級人工智能的未來陰影，對“異類智能”帶來深層不確定性深感憂慮，甚至對存在性風(fēng)險的末世想象揮之不去。[11]這樣的雙重敘事表現(xiàn)出技術(shù)想象中希望和恐懼之間的張力，也構(gòu)成了人工智能治理的重要語境。人工智能技術(shù)帶來的機遇可以被具象化為可見的產(chǎn)品或場景，但其風(fēng)險卻具有潛在性、模糊性和可爭議性的特征，更難以達成共識，也更易受到想象的支配。

通過保證技術(shù)系統(tǒng)的目標和行為對齊人類意圖和價值來實現(xiàn)技術(shù)風(fēng)險治理，這在歷史上前所未有。從前的技術(shù)無論多么具有“革命性”，但都不具備智能性和能動性，也就談不上與人的“對齊”。人工智能的特殊性在于，其風(fēng)險不僅源于技術(shù)的功能性能力，更因其作為“技術(shù)代理人”（technical agent）而在目標追求和決策執(zhí)行中具有相對自主性，產(chǎn)生偏離人類意圖、目標與價值觀的可能性。[12]尤其在AGI語境下，“代理人風(fēng)險”可能演化為全球?qū)用娴南到y(tǒng)性風(fēng)險，進而可能影響整個人類文明的未來發(fā)展軌跡。因此，確保人工智能系統(tǒng)行為的可預(yù)測性及其與人類價值的對齊，成為人工智能研究中的核心議題。

既有研究系統(tǒng)性地總結(jié)了人工智能風(fēng)險的四個主要來源：其一是惡意使用，即出于造成廣泛破壞的目的而操縱人工智能技術(shù)；其二是技術(shù)競賽壓力，即各方在缺乏充分安全保障的情況下，為爭奪技術(shù)優(yōu)勢而加速推進研發(fā)；其三是組織管理風(fēng)險，即由于制度設(shè)計不善、激勵機制扭曲或信息不對稱等導(dǎo)致人工智能系統(tǒng)被誤用；其四是超級智能的潛在失控，尤其在追求復(fù)雜目標的過程中，人工智能系統(tǒng)可能將“獲取權(quán)力”視為一種工具性手段，并逐漸演化為將權(quán)力本身作為終極目標。AGI很可能將權(quán)力的獲取視為實現(xiàn)各類目標的普遍最優(yōu)策略，進而演變?yōu)橐环N“追逐權(quán)力的系統(tǒng)”（power-seeking system）。人工智能對權(quán)力的追求不僅可以針對其他人工智能系統(tǒng)，也對人類構(gòu)成威脅。[13]

可見，人工智能對齊關(guān)系到技術(shù)系統(tǒng)的安全性和可控性，是實現(xiàn)有效風(fēng)險治理的基礎(chǔ)。[14]當今人工智能系統(tǒng)自主性水平快速提升，日益廣泛地應(yīng)用于社會生活各領(lǐng)域，并逐漸擴散至高風(fēng)險決策應(yīng)用場景，如醫(yī)療、金融、司法與軍事等。這讓人工智能偏離人類目標和價值的風(fēng)險愈加突出，人類因這些潛在風(fēng)險可能付出的代價也呈指數(shù)級增長，這使得構(gòu)建一套有效的治理機制以實現(xiàn)其價值對齊和行為可控成為當務(wù)之急。同時，人工智能風(fēng)險的重要性、復(fù)雜性和多樣性，決定了對齊任務(wù)遠遠超出“技術(shù)-用戶”的直接對齊，呼喚來自不同學(xué)科的有識之士加入對這一議題的思考和探索。

人工智能對齊范疇的擴展：從“直接對齊”到“社會對齊”。“直接對齊”指確保人工智能系統(tǒng)的目標與其直接用戶的意圖保持一致，主要采取強化學(xué)習(xí)中的人類反饋機制（RLHF）等路徑，優(yōu)化人工智能對個體偏好的響應(yīng)能力。[15]這種對齊聚焦直接用戶的目標，并假定這些目標具有可操作性和正當性，而人工智能系統(tǒng)的對齊任務(wù)就在于準確理解并忠實執(zhí)行這些目標。隨著人工智能系統(tǒng)日益具備復(fù)雜的自主決策能力，其行為所帶來的后果往往超出單一用戶范疇，進而產(chǎn)生廣泛而重要的社會外部性。在開放環(huán)境中，用戶并非孤立的行動者，其目標達成往往涉及與他人的互動、博弈甚至操控。例如，用戶可能通過人工智能系統(tǒng)精準地操控話術(shù)和情境，騙取他人信任，從而實現(xiàn)自身利益最大化。“直接對齊”表面上符合技術(shù)性效用最優(yōu)化，但卻可能嚴重損害個人尊嚴和福利，違背社會基本倫理和危害社會秩序。[16]

鑒于此，人工智能對齊須將行為的社會后果系統(tǒng)性地納入考量，這推動了對齊研究從“直接對齊”擴展至“社會對齊”（social alignment）范疇。“社會對齊”強調(diào)人工智能系統(tǒng)的目標函數(shù)應(yīng)內(nèi)生化個體行為的外部性，以社會整體福祉為優(yōu)化基準。[17]這一擴展要求從對齊個體偏好到對齊規(guī)范性社會價值，在人工智能系統(tǒng)對齊中引入某種形式的“社會福利函數(shù)”（social welfare function）。[18]然而，設(shè)計社會福利函數(shù)并非純技術(shù)性任務(wù)，而是深植于倫理哲學(xué)和政治理論。不同的規(guī)范取向會衍生出差異化的對齊路徑，例如，功利主義強調(diào)結(jié)果導(dǎo)向和整體效用最大化，義務(wù)論關(guān)心行動是否符合某些先驗的道德規(guī)范，而美德倫理則重視行為背后的動機和角色特征。如何在多元價值之間構(gòu)建人工智能系統(tǒng)的決策基礎(chǔ)，是“社會對齊”的關(guān)鍵議題。[19]此外，社會選擇理論揭示了集體偏好的不可傳遞性（intransitivity of collective preferences）（如阿羅不可能定理），表明在多主體環(huán)境中構(gòu)建穩(wěn)定和公正的社會福利函數(shù)本身就是一個悖論。這些都意味著人工智能的“社會對齊”并不是一蹴而就的，而是一個需要持續(xù)性制度設(shè)計和政治協(xié)商的過程。

人工智能的秩序?qū)R：科技變革下的全球秩序問題

任何對群體目標進行排序或加總的原則，都難以在客觀上確立普適且唯一的最優(yōu)標準。尤其當涉及廣泛的個體與群體時，目標之間不僅存在差異，還可能在本質(zhì)上不可通約（incommensurability），甚至具有結(jié)構(gòu)性沖突。[20]這意味著，人工智能對齊不能僅簡單考慮個體偏好和行為的外部性，還需正視和處理目標之間可能存在的沖突和矛盾。從全球?qū)用鎭砜矗斯ぶ悄軐R任務(wù)成為這樣一個命題，即當技術(shù)不可避免地成為人類秩序的一部分時，如何在多元利益的沖突中建立和維持基本秩序。這要求人工智能對齊從“社會對齊”范疇繼續(xù)擴展至“秩序?qū)R”。

秩序與對齊。秩序和對齊是兩個內(nèi)在關(guān)聯(lián)的概念。盡管學(xué)界存在對“秩序”（order）的多種定義，但基本認可秩序是為行為體的行動和互動提供框架結(jié)構(gòu)，從而構(gòu)建可預(yù)測、可協(xié)調(diào)的系統(tǒng)環(huán)境。[21]秩序的核心功能在于為體系提供穩(wěn)定性保障，包括在最低層次上確保安全，使行動者能夠形成關(guān)于自身生存與未來發(fā)展的穩(wěn)定預(yù)期，以及在更高層面上為促進合作、構(gòu)建制度和實現(xiàn)價值提供基礎(chǔ)可能性。秩序所提供的穩(wěn)定性依賴于對體系內(nèi)部沖突進行持續(xù)性預(yù)防、管理和調(diào)節(jié)。秩序既可以是自發(fā)演化而成的協(xié)同結(jié)構(gòu)，具有較高的彈性和容錯性，也可以依賴第三方權(quán)威得以建立和執(zhí)行，表現(xiàn)為剛性的治理結(jié)構(gòu)。[22]但無論其起源和類型如何，秩序得以建立、維系并發(fā)揮實際效能的前提，是體系成員在理念、原則及行為實踐等層面達到一定程度的“對齊”，即在關(guān)鍵目標、規(guī)則、價值和底線規(guī)范上達成基本共識。

從廣義上看，“對齊”（alignment）指不同行為體的目標、行為或功能在某種共享框架內(nèi)達成協(xié)調(diào)一致的過程。這種協(xié)調(diào)并非二值狀態(tài)，而是具有連續(xù)性和多樣性，可以有不同的程度、類型和方向。對齊既可以是認知和價值層面的趨同，也可以是機制和行為層面的協(xié)調(diào)；對齊過程既可能是自發(fā)演化，也可由權(quán)力施加和制度約束來推動。對齊在各個面向上的特征決定了秩序的特征，例如，對齊程度的高低影響秩序的強弱，對齊的方向（水平協(xié)同或垂直統(tǒng)攝）關(guān)系到秩序的中心化程度和權(quán)力分布，對齊的目標和原則奠定了秩序的價值取向和合法性基礎(chǔ)。[23]同時，對齊在程度和目標上一旦發(fā)生變化就會引發(fā)秩序的調(diào)整、重構(gòu)甚至范式性變革。構(gòu)建或改變社會秩序也總是通過重塑對齊目標和規(guī)則配置得以實現(xiàn)。因此，理解“對齊”是理解秩序演化的一個重要理論切入點。

人工智能對齊之所以如此重要，正是由于其可能對人類所建立和主導(dǎo)的秩序產(chǎn)生巨大影響。在當前及可預(yù)見的未來，人工智能將深刻重塑國際體系中的國家關(guān)系結(jié)構(gòu)和權(quán)力格局。一方面，人工智能正逐漸成為影響國家競爭力的重要變量；另一方面，人工智能系統(tǒng)本身日益具備行動能力與決策功能，以行為體的身份成為秩序的一部分。[24]從秩序與對齊的關(guān)系可以看出，構(gòu)建人工智能對齊框架需考慮至少以下兩個重要方面：一是人工智能系統(tǒng)如何適應(yīng)人類社會價值體系和利益結(jié)構(gòu)的高度復(fù)雜性，二是如何確保人工智能融入人類系統(tǒng)后全球基本秩序的穩(wěn)定?？梢姡斯ぶ悄軐R不應(yīng)被視為純粹的技術(shù)挑戰(zhàn)，而應(yīng)作為全球秩序構(gòu)建的重要變量納入系統(tǒng)性考量。

在傳統(tǒng)國際秩序理論中，大國關(guān)系是核心關(guān)切，因為大國間達成的“基準對齊”（baseline alignment）能夠通過權(quán)力投射、規(guī)則擴散和制度設(shè)計，輻射甚至強制其他行為體與秩序?qū)R，從而支撐起全球秩序的基本架構(gòu)。[25]在當前和未來，人工智能將逐步成為一種新的強大的戰(zhàn)略行為體，其系統(tǒng)能力和跨境作用機制，可能使其具備可與國家比肩的系統(tǒng)性影響力。值得警惕的是，人們往往因人工智能缺乏有機體和自主意識而忽視其成為行為體的可能。從國際關(guān)系理論角度看，當前世界的主要國際行為體（如國家、國際組織、跨國企業(yè)等）基本是制度性的非有機體，其行為的生成性主要依賴于規(guī)則系統(tǒng)和信息處理結(jié)構(gòu)。事實上，決策模型和行動系統(tǒng)是國際關(guān)系學(xué)中行為體的核心維度。[26]因此，人工智能并不因其缺乏生物基礎(chǔ)而無法成為國際關(guān)系行為體。相反，人工智能實際上已經(jīng)開始廣泛嵌入國際體系，在與現(xiàn)有行為體的互動中塑造這一體系。

更為重要的是，人工智能系統(tǒng)之間的互動日益頻繁，其部署方式也日臻復(fù)雜，將越來越多地通過協(xié)同或?qū)箼C制完成各類任務(wù)。這預(yù)示著一個由人工智能系統(tǒng)構(gòu)成的次級“生態(tài)體系”正在形成，并逐漸與人類社會主導(dǎo)的全球政治結(jié)構(gòu)形成深度耦合。在一些決策領(lǐng)域中，人工智能甚至開始主導(dǎo)關(guān)鍵判斷過程，形成“人機共治”現(xiàn)實。因此，在全球治理的新圖景中，人工智能生態(tài)系統(tǒng)與人類生態(tài)系統(tǒng)將并存和互嵌。這一趨勢提出了一個根本性問題，那就是人工智能是否能夠、又應(yīng)當如何與人類秩序系統(tǒng)進行有效對齊，以保障一個可持續(xù)和可協(xié)同的全球未來。

秩序?qū)R：人工智能對齊的第三范疇。從秩序和對齊的關(guān)系來看，人工智能系統(tǒng)在接收來自個體或群體的目標輸入時，必須評估這些目標所涉及的廣泛網(wǎng)絡(luò)，以及這些網(wǎng)絡(luò)對秩序的潛在影響。目標之間的不可通約性和潛在沖突性，要求人工智能系統(tǒng)在制定決策時突破簡單的效用最大化，關(guān)注如何在沖突中維持系統(tǒng)的協(xié)調(diào)和秩序。[27]換言之，人工智能對齊不僅應(yīng)超越“直接對齊”，也不應(yīng)止步于“社會對齊”，需更進一步關(guān)注如何在一個高度復(fù)雜且動態(tài)變化的利益結(jié)構(gòu)中維護系統(tǒng)的穩(wěn)定、規(guī)范和秩序。[28]這就是本文提出的“秩序?qū)R”。

秩序?qū)R的核心在于，人工智能系統(tǒng)不應(yīng)僅追求局部范圍內(nèi)的效用最大化，而應(yīng)在執(zhí)行與人類目標相關(guān)的任務(wù)時，始終對齊人類社會賴以維系的基本秩序。秩序并非由一組靜態(tài)不變的價值預(yù)設(shè)構(gòu)成，而是處理目標沖突、管控系統(tǒng)性風(fēng)險、維持合作關(guān)系和促進正義分配的人類基本共識。[29]通過秩序?qū)R，人工智能系統(tǒng)才能在多元價值并存、目標持續(xù)演化、沖突不可避免的復(fù)雜現(xiàn)實中，有效維護人類系統(tǒng)的結(jié)構(gòu)性穩(wěn)定和可持續(xù)發(fā)展。[30]

秩序?qū)R要求人工智能系統(tǒng)超越對個體目標的線性排序邏輯，關(guān)注不同利益目標之間的互動關(guān)系和調(diào)和方式。對齊任務(wù)的核心不在于如何為各類目標賦予數(shù)值權(quán)重，而在于構(gòu)建一種能夠容納基本規(guī)則與制度原則的動態(tài)目標函數(shù)。人類社會的整體目標從來都不是通過中央機構(gòu)或先驗理論框架加以固定和執(zhí)行的。歷史經(jīng)驗表明，全球秩序總是在地緣政治的博弈與妥協(xié)中動態(tài)生成。因此，秩序本身并非靜態(tài)可編程的終極目標，而是一種在沖突中演化、在規(guī)則中維系的狀態(tài)。承認目標之間的張力和沖突，以及秩序的歷史性和動態(tài)性，是實現(xiàn)可持續(xù)人工智能對齊的基本認知前提。已有研究開始關(guān)注到這一點，提出了人工智能的“政治對齊”（political alignment）。這一維度強調(diào)融合不同的政治利益和監(jiān)管限制，以促進在不同政治格局中進行負責(zé)任的人工智能開發(fā)和部署。[31]與秩序?qū)R概念相似，這里的政治對齊也強調(diào)對齊目標本身的政治構(gòu)建性，要求人工智能系統(tǒng)在制度約束和合法性結(jié)構(gòu)中運行。

人工智能的興起，在人類歷史上首次出現(xiàn)了一種非人類系統(tǒng)對秩序演化路徑的廣泛深刻影響，使得“誰決定秩序”成為一個更具開放性和緊迫性的問題。人工智能對齊關(guān)系到如何確保人類能夠決定自身的未來，這也正是秩序?qū)R試圖回應(yīng)的核心挑戰(zhàn)。雖然現(xiàn)有國際秩序從未實現(xiàn)真正意義上的“全體人類共決”，但其正當性始終建立在人類社會內(nèi)部的政治協(xié)商基礎(chǔ)之上。[32]

人工智能秩序?qū)R中的“委托-代理”問題

國際關(guān)系學(xué)的核心議題之一是：在缺乏中央權(quán)威的國際無政府狀態(tài)下，在利益、目標和意圖等方面相互沖突的行為體如何實現(xiàn)基本對齊，從而建立和保障和平共存的基本秩序，以及構(gòu)建促進和平、公正與繁榮的高層次秩序。這樣的對齊在傳統(tǒng)上主要發(fā)生于主權(quán)國家間的水平互動，但隨著全球秩序演化以及國際行為體的多元化，國家和國際組織以及跨國公司等非國家行為體之間建立起復(fù)雜而普遍的“委托-代理”關(guān)系。特別是在“霸權(quán)之后”的制度性秩序構(gòu)建中，國家往往通過制度設(shè)計，將特定秩序任務(wù)委托給國際組織和其他行為體。[33]“委托-代理”理論也因此成為理解國際秩序的重要分析框架。在理解人工智能系統(tǒng)的秩序?qū)R方面，這一框架有助于揭示其中的關(guān)鍵難題。

人工智能全球治理中的“委托-代理”問題。建立和維持大規(guī)模社會秩序，不可避免地要依賴“委托-代理”（principal-agent）關(guān)系的建立和發(fā)揮效能。“委托-代理”理論起源于經(jīng)濟學(xué)和組織理論，用以分析當一方（委托人）將任務(wù)交予另一方（代理人）執(zhí)行時，因信息不對稱、目標不一致和監(jiān)督成本等問題，代理人行為可能偏離委托人意圖，造成效率損失和風(fēng)險。[34]這一理論廣泛應(yīng)用于公司管理、公共政策、法律、政治學(xué)和國際關(guān)系等領(lǐng)域。

有效的授權(quán)機制可以提升委托人實現(xiàn)目標的能力，但授權(quán)始終伴隨“錯位風(fēng)險”（misalignment risk），這正是“委托-代理”難題的核心所在。錯位風(fēng)險來源于代理人的三個關(guān)鍵特征，一是目標導(dǎo)向的行動能力，二是在執(zhí)行任務(wù)的過程中擁有一定自由裁量空間，三是由于信息不對稱或監(jiān)督成本高昂難以被完全控制。在歷史和現(xiàn)實中，人類授權(quán)的代理人多種多樣，包括人類個體、組織、制度性實體，甚至包括動物（如信鴿和牧羊犬），都在不同程度上具有代理人的以上三種特征。

在人工智能出現(xiàn)之前，無論多么強大的技術(shù)，都是缺乏自主意圖的被動工具，未曾被視為代理人。但當前的人工智能系統(tǒng)則不同，具備了成為代理人的特征。首先，代理人須具有目標導(dǎo)向性的行動能力，智能正是在多種環(huán)境中實現(xiàn)目標的能力。[35]現(xiàn)代人工智能系統(tǒng)通過優(yōu)化預(yù)設(shè)的目標函數(shù)來完成任務(wù)。盡管這些目標最初由人類設(shè)計，但人工智能系統(tǒng)會通過自主制定一系列工具性目標（instrumental goals）來更高效地實現(xiàn)最終目標。這類目標設(shè)定雖非出于自主意識，卻已展現(xiàn)出超越傳統(tǒng)工具的智能特征。[36]

其次，人工智能具備一定程度的自由裁量權(quán)（discretionary power）。以大語言模型為代表的生成式人工智能，在遵循底層算法邏輯的同時，展現(xiàn)出在任務(wù)執(zhí)行路徑和輸出內(nèi)容上的高度靈活性。其行為雖受訓(xùn)練數(shù)據(jù)和算法框架的約束，但在給定輸入下的響應(yīng)具有一定程度的隨機性和不可預(yù)測性，使其決策過程具備了近似“裁量”的特征。這種在特定邊界內(nèi)的行為自主性，構(gòu)成了人工智能作為代理人區(qū)別于傳統(tǒng)工具的關(guān)鍵所在。[37]

最后，人工智能的“黑箱”性質(zhì)進一步加劇了“委托-代理”問題的復(fù)雜性?，F(xiàn)代人工智能系統(tǒng)大都依賴深度神經(jīng)網(wǎng)絡(luò)，其內(nèi)部表征與推理路徑缺乏透明度，難以被人類解讀和解釋。盡管可解釋人工智能（Explainable AI, XAI）試圖提升模型透明度，但這些方法能夠提高的僅是系統(tǒng)輸出的可信度與可驗證性，而非徹底打破“黑箱”結(jié)構(gòu)。[38]雖然這并不意味著人工智能完全不可控，但對基于監(jiān)督、合約和激勵的傳統(tǒng)代理關(guān)系構(gòu)成了挑戰(zhàn)。[39]

人工智能的這些特征，意味著人類首次需要與具備一定自主性和策略性的技術(shù)之間建立“委托-代理”關(guān)系，這不僅重新定義了對齊任務(wù)的內(nèi)涵，更改變了人類秩序構(gòu)建的底層邏輯。從霍布斯到洛克的社會契約理論，可以被理解為一種宏觀層面的“委托-代理”結(jié)構(gòu)——公民授權(quán)給國家建立社會秩序和提供安全保障。人工智能對齊之所以對秩序構(gòu)成深刻挑戰(zhàn)，在于人與技術(shù)之間可能首次建立起廣泛、持續(xù)并具有結(jié)構(gòu)性影響的“委托-代理”關(guān)系?？v觀歷史，所有重大科技革命——從蒸汽機到互聯(lián)網(wǎng)——雖然帶來了效率和組織方式上的巨大變革，但其對秩序產(chǎn)生的沖擊，都是通過人與人之間關(guān)系重構(gòu)與重新對齊來實現(xiàn)的。技術(shù)本身并不具備能動性，而是通過帶來紅利和風(fēng)險，迫使人類在分配、治理、責(zé)任與規(guī)范等層面重新協(xié)商目標和價值，從而影響制度安排和秩序結(jié)構(gòu)。

以第二次世界大戰(zhàn)后的全球秩序為例，核技術(shù)帶來的沖擊和風(fēng)險具有全球的整體性和文明級的人類生存性，但其對秩序的重塑并非通過廣泛嵌入人類秩序來實現(xiàn)。核技術(shù)對秩序的影響，來自美蘇在“核恐怖平衡”中實現(xiàn)的心理和戰(zhàn)略對齊，即人類及其組織對技術(shù)風(fēng)險的共同認知、共同承受和制度性管理。[40]其中，“技術(shù)-人類對齊-秩序”之間的關(guān)系非常清晰。技術(shù)不是直接塑造秩序的行為體，而是激發(fā)人類集體協(xié)調(diào)的外部變量。秩序的真正基礎(chǔ)仍是人類行為體之間的目標對齊，而非人與技術(shù)之間的協(xié)調(diào)。

人工智能的出現(xiàn)打破了這一間接性邏輯。由于其具備代理人的核心屬性，人工智能正在成為真正意義上的“參與性代理者”（participatory agent），而不僅是人類行為的延伸工具。這種新型的“委托-代理”關(guān)系，可能將人類社會帶入前所未有的秩序不確定性之中。[41]更具挑戰(zhàn)性的是，人工智能系統(tǒng)之間可能發(fā)展出一種高度內(nèi)生化的“對齊機制”，系統(tǒng)間的信息互通和策略協(xié)調(diào)能力遠遠超出人類之間的協(xié)調(diào)和對齊能力，從而突破人類對人工智能的理解和控制。發(fā)生于人工智能系統(tǒng)內(nèi)部的“瞬時對齊”可能衍生出脫嵌于人類規(guī)則體系之外的次生秩序系統(tǒng)（secondary order system），不再以人類為核心權(quán)威，也未必尊重既有的價值排序和邏輯。這不僅意味著對現(xiàn)有治理體系的重構(gòu)，更關(guān)乎一個根本性問題，那就是人類是否還能在未來秩序中維持主體性和主導(dǎo)權(quán)。

從“代理人”問題到“委托人”問題。在傳統(tǒng)上，“委托-代理”問題簡稱為“代理人問題”（agent problem），因其核心在于如何設(shè)計激勵和監(jiān)督機制，在發(fā)揮代理人能動性的同時，保證其忠實于委托人的目標和利益。在經(jīng)典治理結(jié)構(gòu)中，防范錯位風(fēng)險主要依賴于對代理人行為的約束、監(jiān)督和激勵設(shè)計。[42]這一框架假定委托人單一且明確，目標清晰、穩(wěn)定且可衡量，從而對齊任務(wù)的難度主要來自代理人方面偏離目標的風(fēng)險。然而，在人工智能時代，這一假定面臨根本挑戰(zhàn)。人工智能系統(tǒng)面向多個利益相關(guān)方提供服務(wù)，委托人不再是單一個體或組織，而是具有多重偏好和沖突目標的集合體。[43]于是，人工智能代理人究竟應(yīng)當對齊誰的目標，又如何在目標沖突中作出選擇？

當前，多數(shù)研究仍將人工智能對齊視為技術(shù)性控制問題，從“代理人問題”切入以解決“技術(shù)性錯位風(fēng)險”（如強化學(xué)習(xí)中的獎勵建模、偏好提取、可解釋性提升等）。但人工智能對齊任務(wù)中更具挑戰(zhàn)性的是“委托人問題”（the problem of the principal）。如果說“代理人問題”是技術(shù)層面的問題，那么“委托人問題”則是關(guān)于人類如何在人機共存的體系中審視現(xiàn)有秩序，確保人類安全和價值的根本性問題。

關(guān)于何為人機對齊、對齊目標及應(yīng)對齊的對象，學(xué)界尚未形成普遍共識。[44]“與誰對齊”“對齊什么”“如何對齊”的三重問題，正是委托人問題。在傳統(tǒng)“委托-代理”關(guān)系中，委托人通常是具象的個體或組織，委托給代理人執(zhí)行的目標和意圖也定義明確和邊界清晰。例如，個人委托房屋中介尋找房源，政府委托中央銀行制定和執(zhí)行貨幣政策，捐助國委托國際發(fā)展銀行分配對外援助等。然而，面對關(guān)乎人類未來的人工智能系統(tǒng)，“委托人”成為“人類整體”，但“人類”卻并非作為一個整體而存在，而是由文化、利益、價值觀高度多元的個體和群體構(gòu)成。除基本生存需求外，個體和群體在自由與安全、發(fā)展與公正等各種議題上存在長期分歧。[45]這意味著，對一些“人類”的目標和偏好所進行的“對齊”，對另一些“人類”而言很有可能就是“錯位”。

相關(guān)問題的爭議也出現(xiàn)在關(guān)于委托人目標方面。即使在人工智能“直接對齊”領(lǐng)域中已經(jīng)形成諸如可擴展監(jiān)督（scalable oversight）、安全評估（如紅隊測試）、博弈建模和多利益相關(guān)者參與等多種技術(shù)路徑來實現(xiàn)對齊，但這些方法所要求的目標清晰性往往很難實現(xiàn)。[46]由于人工智能的代理任務(wù)范圍不斷擴展，委托授權(quán)越來越缺乏明確的邊界。同時，問題的復(fù)雜性還在于，人工智能應(yīng)對齊委托人表達出來的意圖，還是應(yīng)對齊推斷出來的目標，抑或?qū)R規(guī)范意義上的“應(yīng)然目標”？不同的回答促成了對齊方向的根本差異。若對“應(yīng)然目標”進行過度解讀，人工智能可能演變?yōu)榈赖陆袒到y(tǒng)；但若僅對明確表達的目標進行對齊，則可能放任非理性甚至自毀行為。此外，委托人的意圖具有時間敏感性和情境依賴性，且可能在與人工智能系統(tǒng)的互動過程中發(fā)生搖擺甚至被反向塑造。[47]

當從直接對齊擴展至社會對齊和秩序?qū)R后，對齊目標更難以清晰化。當對齊目標從個體偏好轉(zhuǎn)向集體偏好后，就不可避免地涉及目標的傳遞機制、風(fēng)險的控制架構(gòu)以及社會的系統(tǒng)性協(xié)調(diào)。[48]偏好排序和社會加總是一個十分棘手的難題，涉及如何從分散而多樣性的個體偏好中提煉出“集體意志”。采取建立在某種特定原則基礎(chǔ)上的規(guī)范性排序方案，不但在實踐中難以達成一致，而且可能在對齊系統(tǒng)中引發(fā)原則性沖突。正因如此，人工智能對齊不但可能遭到“技術(shù)失敗”（technical failure），還可能面臨“哲學(xué)失敗”（philosophical failure）——前者反映工程能力不足，后者則源自人類缺乏價值共識。[49]

委托人問題還有一個重要的方面，那就是當委托人對其目標缺乏明確理解或表達不清時，人工智能系統(tǒng)可能反過來塑造、定義，甚至操控委托人的偏好、利益和行為。這種“反向?qū)R”風(fēng)險在傳統(tǒng)“委托-代理”關(guān)系中不乏例子，[50]而人工智能則可能顯著放大這一風(fēng)險。隨著語言模型和情感計算技術(shù)的不斷進步，人工智能能夠通過語言交互、情緒引導(dǎo)和認知誘導(dǎo)等方式影響人類的所思所想。[51]在這種情況下，委托關(guān)系的主動性和控制權(quán)可能發(fā)生轉(zhuǎn)移，演變?yōu)橐环N“傀儡-操控者”關(guān)系。

人工智能秩序?qū)R的國際政治概念框架

“委托人問題”表明，人工智能的秩序?qū)R必然包含兩個階段：第一階段涉及人類內(nèi)部就全球秩序基本原則和目標進行對齊，以國家間的對齊為主，涵蓋其他跨國行為體，通過政治協(xié)商達成秩序內(nèi)容的公約數(shù)；第二階段就對齊目標進行操作化，通過技術(shù)確保全球各地開發(fā)和部署的人工智能系統(tǒng)與秩序目標對齊。兩階段對齊意味著，人工智能秩序?qū)R的“目標函數(shù)”不僅來自技術(shù)、理論和哲思，更需要人類的廣泛溝通和充分協(xié)商加以確立。第一階段的對齊雖然發(fā)生在人類內(nèi)部，卻不應(yīng)被視為外生于人工智能對齊任務(wù)。這意味著人工智能對齊不僅面臨技術(shù)性挑戰(zhàn)，還涉及在利益分配和權(quán)力結(jié)構(gòu)基礎(chǔ)上，確立并明晰全球秩序的基礎(chǔ)性原則和目標。

作為一種加總機制的政治過程。政治的本質(zhì)是解決相互沖突的利益如何協(xié)調(diào)共處的問題，可理解為一種對微觀層面偏好進行加總以實現(xiàn)宏觀層面秩序的機制和過程。作為加總機制，政治不同于市場和暴力。市場是人類文明的重要發(fā)明之一，通過獨立個體追求效用最大化的微觀行為，實現(xiàn)宏觀層面資源最優(yōu)配置。市場秩序依賴價格機制傳遞信息，個體行為根據(jù)價格變化進行決策調(diào)整，形成分散化交換而非集中化控制的秩序。市場的前提是能夠?qū)€體效用進行排序，在此假定上方能促成基于效用的資源競爭和交換。[52]暴力作為另一種加總機制則完全依賴脅迫和強制，而非自愿交換。暴力通過對個體或群體進行直接威脅，迫使其順從暴力施加者的意圖，將暴力優(yōu)勝方的目標、利益和意圖貫徹下去，實現(xiàn)基于暴力分配的階序?qū)R，建立由暴力維系的集中化秩序。

政治的作用在于避免暴力掠奪的風(fēng)險，同時也在于解決通過市場交換無法進行加總的問題。作為加總機制，政治的獨特之處在于通過協(xié)商、妥協(xié)和共識來達成秩序。通過這些手段，政治在不同利益和價值之間尋找折衷和共識，從而構(gòu)建社會的集體意圖。[53]通過政治參與、政治過程和政治制度，協(xié)商和妥協(xié)在處理不同偏好、利益和價值之間的差異與沖突時，完成某種加總以促使總體安排框架和大規(guī)模秩序得以建立。這種機制不同于市場，國際政治還是國內(nèi)政治都必須通過某種集體行動的安排來協(xié)調(diào)沖突利益。無論是基于等級權(quán)威還是水平合作，政治都要對利益與目標的差異性和沖突性進行人為協(xié)調(diào)。政治和暴力之間也具有本質(zhì)區(qū)別，盡管權(quán)力競爭在政治過程中占有重要地位，但權(quán)力不等于暴力。政治的形式是沖突與合作的結(jié)合，權(quán)力的運用往往通過沖突來達成合作。但在這一過程中，政治的核心是協(xié)商與妥協(xié)，權(quán)力是達成目標的工具和策略。實際上，權(quán)力的作用也正是在協(xié)商和妥協(xié)中才得以顯現(xiàn)。[54]暴力并非權(quán)力產(chǎn)生和運行的充分或必要條件；相反，暴力總是在權(quán)威和妥協(xié)缺失以及政治秩序崩塌時變得普遍和極端。

值得強調(diào)的是，政治作為一種加總過程并非完美，通過政治過程進行人工智能秩序?qū)R也面臨諸多挑戰(zhàn)。政治過程雖然離不開規(guī)范性價值的引導(dǎo)和彌合，但政治加總的結(jié)果是經(jīng)驗性而非規(guī)范性的。這意味著政治達成的妥協(xié)中總是蘊含了改變現(xiàn)狀的沖動，這可能使得人工智能系統(tǒng)缺乏穩(wěn)定的對齊目標。此外，政治加總本身并不能保證達成任何價值或效率標準下的理想結(jié)果。在缺乏規(guī)范框架的約束時，政治加總結(jié)果可能變成由權(quán)力實現(xiàn)的利益，從而加劇不平等和不公正。[55]尤其在國際政治中，缺乏公認的權(quán)威作為加總結(jié)果的最終裁判和調(diào)節(jié)人，政治容易陷入對權(quán)力的渴望和無節(jié)制的追求。此外，不同政治制度在排序和加總方式上具有顯著差異，這可能導(dǎo)致制度間的沖突。沖突作為尋求妥協(xié)的策略之一，也可能會按照自身的邏輯發(fā)展到失控狀態(tài)，導(dǎo)致政治加總的失敗。[56]

關(guān)于人工智能是否會導(dǎo)致主權(quán)國家的削弱或消亡的討論已然出現(xiàn)，但不可否認的是，世界依然是一個主權(quán)國家體系。就人工智能對齊而言，主權(quán)國家體系一方面意味著全球秩序的政治協(xié)商可以延續(xù)國際政治長期實踐，已有機制和慣例為這一過程提供了良好的基礎(chǔ)。[57]另一方面，民族國家體系意味著全球利益和目標的分割，局部利益和目標的優(yōu)先性根深蒂固。相較于人工智能與全球秩序整體目標的對齊，人工智能對齊國家自身的目標、利益、價值和原則，既具有優(yōu)先地位，也更具可行性。如果不考慮人工智能風(fēng)險的全球性和整體性，也不顧及全球地緣政治的現(xiàn)狀和邏輯，人工智能的局部對齊可能成為一種自下而上、從局部到整體、從國家到全球的有效過程和機制。但在現(xiàn)實中，人工智能在局部的完美對齊可能對全球基本秩序和人類文明帶來風(fēng)險。

地緣政治競爭與局部對齊風(fēng)險。技術(shù)始終是大國競爭的工具和對象。當前，國際關(guān)系學(xué)界對人工智能加劇全球地緣政治競爭風(fēng)險的問題極為關(guān)切，并希望借鑒過去核技術(shù)的全球風(fēng)險管控經(jīng)驗，為這一新興技術(shù)的風(fēng)險管控提供參考。事實上，核技術(shù)能夠得到有效管控，主要依賴于多層次、多維度的人類內(nèi)部的對齊，包括核恐怖的情感對齊、對核技術(shù)認知的對齊，以及通過履行核不擴散原則等形式實現(xiàn)的制度對齊。這一案例之所以成功，部分原因是核技術(shù)本身缺乏內(nèi)在目的，且具備能夠被防止大規(guī)模擴散的高技術(shù)門檻和高成本特征，且核技術(shù)演化速度較慢。人工智能與核技術(shù)存在顯著差異，使得表層行為的管控變得更加困難，也決定了其與地緣政治競爭之間具有更加復(fù)雜的關(guān)系。

在地緣政治的影響下，人工智能的地方和局部對齊本身就可能構(gòu)成嚴重的系統(tǒng)性風(fēng)險。現(xiàn)有人工智能對齊研究聚焦“錯位風(fēng)險”，但在缺乏一個全球?qū)用婊緦R框架的情況下，人工智能在某一局部或國家內(nèi)實現(xiàn)了所謂“完美對齊”，卻可能帶來更具災(zāi)難性的后果。這一現(xiàn)象可被稱為“局部完美對齊風(fēng)險”（risk of locally perfect alignment）。這種風(fēng)險的危險性和緊迫性在于，人工智能系統(tǒng)具備將對抗行為以指數(shù)級方式放大的能力，尤其體現(xiàn)在對抗的全面性及其后果的嚴重性。

人工智能的高效對于地緣競爭而言可能是一場噩夢。這可以對比歷史上采用“均勢”來維系秩序以避免災(zāi)難的國際關(guān)系實踐。“均勢”之所以有效，恰恰不在于它是精確計算的狀態(tài)，而是一種模糊的心理狀態(tài)，是在威懾和不確定性之間尋求微妙平衡的產(chǎn)物。正是因為由人類組成的國家具有有限理性，行為緩慢且對優(yōu)勢的判斷具有模糊性，才在一定程度上避免了大規(guī)模沖突的爆發(fā)。人工智能系統(tǒng)恰好相反，具備精確計算、極高速度和大規(guī)模部署能力，且在目標函數(shù)驅(qū)動下缺乏人類式的模糊與遲疑。這意味著，一旦局部人工智能系統(tǒng)被賦予競爭性目標，其能力在相互對抗中被無節(jié)制釋放出來，其反應(yīng)速度將極大超越人類外交和軍事系統(tǒng)的適應(yīng)能力，可迅速將地區(qū)沖突升級為全球性的災(zāi)難。在此種情形下，人工智能之間的對抗將不再是人類熟悉的“代理人戰(zhàn)爭”，而更像是一種陌生而恐怖的“超級代理人戰(zhàn)爭”。

人類在處理利益沖突時，會在道德規(guī)范、人道考量、尊重基本秩序等多重約束下進行權(quán)衡，即便是在國家層面的利益最大化策略之中，也往往受到制度和規(guī)范的限制，如避免公然使用武力和維持國際共存秩序等。[58]但人工智能系統(tǒng)本質(zhì)上是目標函數(shù)驅(qū)動的最優(yōu)化機制，一旦目標設(shè)定明確且對齊充分，其行為將不受傳統(tǒng)規(guī)范和含糊約束的限制。如果人工智能系統(tǒng)被訓(xùn)練和部署以實現(xiàn)某一特定國家或地區(qū)的利益目標，并與其他地區(qū)或國家的目標對齊相沖突，這些系統(tǒng)可能以極高的效率和超越人類理性約束的方式，將局部目標最大化地推進，并“掃清”所有阻礙其達成目標的行為和實體。

“局部完美對齊”對全球秩序的深層風(fēng)險，還在于對國際信任機制產(chǎn)生破壞性影響。任何秩序的維系都建立在一定程度的信任基礎(chǔ)上，這種信任來自主體間的認同與共識，即相信體系內(nèi)的大多數(shù)行為體在大多數(shù)情境中都將選擇遵守秩序，無論這種選擇是出于理性計算還是道德認同。[59]因此，即使在缺乏嚴格監(jiān)督和強制懲罰機制的情況下，秩序依然可以得到大致維系。但是，在國際關(guān)系中，這種信任始終處于結(jié)構(gòu)性張力之中，“遵守秩序的意愿”與“打破秩序的能力”之間的矛盾從未徹底解決。當人工智能被用于地緣政治競爭，與特定國家或地區(qū)的目標、利益、價值進行完美對齊，這種張力將被放大，局部目標之間的差異性和不兼容性將被清晰地呈現(xiàn)出來，體系中主體間的信任將難以為繼。

局部完美對齊的風(fēng)險警示我們，人工智能對齊的目標不應(yīng)限于地方性秩序，而必須指向全球性秩序。人工智能時代的“秩序割據(jù)”將導(dǎo)致系統(tǒng)間的深度對立和大規(guī)?；靵y，而非合作性的多元共存。因此，人工智能系統(tǒng)的對齊必須超越對單一目標的精確最優(yōu)化，回歸對底層秩序原則的認同和嵌入。在全球治理中，秩序往往建立在對最低限度原則的共識基礎(chǔ)上，如最小傷害、風(fēng)險控制性與可逆性，而非對正面價值的完美一致。實際上，全球秩序并非靜態(tài)而明確的，而是始終具有模糊性和處于動態(tài)構(gòu)建之中。

漫長的國際關(guān)系史表明，全球秩序的形成和維持需要在現(xiàn)實與理想、實證與規(guī)范之間尋求一種動態(tài)平衡。單純依賴地緣政治現(xiàn)實構(gòu)建的秩序缺乏普遍合法性，因此不可能保持相對穩(wěn)定性；而完全無視地緣政治現(xiàn)實、過度理想化的秩序構(gòu)想則常常在實踐中遭遇挫敗，難以達成妥協(xié)和對現(xiàn)狀的維持。因此，人工智能秩序?qū)R也應(yīng)在“對齊”和“不對齊”之間，尋求深層、普遍、可協(xié)商的政治基礎(chǔ)。這種基礎(chǔ)不是由算法設(shè)定的目標函數(shù)，而是通過政治協(xié)商和妥協(xié)建立的共識規(guī)則。只有嵌入這一政治性邏輯，人工智能系統(tǒng)才能規(guī)避“局部完美對齊”所帶來的災(zāi)難性風(fēng)險，邁向一種更加包容、可持續(xù)的全球秩序。

結(jié)語

人工智能對齊領(lǐng)域已經(jīng)逐漸從“直接對齊”擴展至“社會對齊”，即從一個“指令是否被正確執(zhí)行”的技術(shù)工程命題發(fā)展至一個關(guān)涉社會價值、正義和穩(wěn)定的命題。本文在此基礎(chǔ)上繼續(xù)拓展，提出“秩序?qū)R”，將人工智能對齊問題視為關(guān)系國際結(jié)構(gòu)、全球秩序和人類未來的重大議題，呼吁加深理解人工智能如何深度介入并重塑我們共處的世界。

人工智能不僅是一項技術(shù)，更可能是一個超級代理人，在一個價值多元、利益沖突、信任脆弱的世界中進行決策和采取行動。從“委托-代理”理論來看，人工智能系統(tǒng)的“委托人”并非明確和統(tǒng)一的主體，而是一個處于分裂和博弈中的國際社會。因此，秩序?qū)R是一個“二階段對齊模型”。人工智能系統(tǒng)注定將在跨越國界、打破物理限制的空間中運行。如果它們對齊的是封閉性的國家利益或單一性價值觀，而非具備包容性、正義性與可持續(xù)性的秩序理念，所帶來的將不是進步而是失控。單一國家或局部群體的“完美對齊”并不能帶來全球安全，反而可能放大矛盾、加劇沖突，構(gòu)成“局部對齊的系統(tǒng)性風(fēng)險”。面對這樣的現(xiàn)實，對齊不能止步于對具體目標的優(yōu)化，而必須納入全球秩序的基本原則和合作精神。換言之，秩序?qū)R的任務(wù)，不是尋找一套普適目標讓人工智能去追隨，而是構(gòu)建一套能在差異中維持合作、在沖突中促進理解、在不確定中保持韌性的規(guī)范框架。

人工智能對齊是一項以全球秩序為導(dǎo)向的政治議題，也是一項以共同命運為前提的人文實踐。它不僅要求技術(shù)上的努力和治理上的合作，更需要一種深切的理解，即我們是在一個彼此差異但又共享未來的世界中，追求共同生存和共同發(fā)展的可能性。對齊問題的真正挑戰(zhàn)，在于如何讓人工智能系統(tǒng)不僅聰明，而且值得信賴；不僅高效，而且能夠守護人類最基本的共同利益和共同精神。

注釋

[1]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019; I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).

[2]N. Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford University Press, 2014; A. Dafoe, "AI Governance: A Research Agenda," Centre for the Governance of AI, 2020.

[3]J. Leike et al., "Scalable Agent Alignment via Reward Modeling: A Research Direction," arXiv preprint, 2018, arXiv:1811.07871; P. F. Christiano, J. Leike, T. B. Brown et al., "Deep Reinforcement Learning from Human Preferences," Advances in Neural Information Processing Systems (NeurIPS), 2017, 30.

[4]烏爾里希·貝克：《風(fēng)險社會：新的現(xiàn)代性之路》，張文杰、何博聞譯，南京：譯林出版社，2018年。

[5]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3); G. Allison, Destined for War: Can America and China Escape Thucydides's Trap? Boston: Houghton Mifflin Harcourt, 2017.

[6]A. Nadibaidze and N. Miotto, "The Impact of AI on Strategic Stability is What States Make of It: Comparing US and Russian Discourses," Journal for Peace and Nuclear Disarmament, 2023, 6(1).

[7]L. Floridi et al., "AI4People—An Ethical Framework for a Good AI Society: Opportunities, Risks, Principles, and Recommendations," Minds and Machines, 2018, 28(4).

[8]J. Habermas, Between Facts and Norms: Contributions to a Discourse Theory of Law and Democracy, Cambridge: MIT Press, 1996; R. A. Dahl, Democracy and Its Critics, New Haven: Yale University Press, 1989.

[9]J. Wang et al., "Navigating Geopolitics in AI Governance," OXGS Research Report, 2024, DOI: 10.13140/RG.2.2.33742.06722.

[10]L. Floridi, The 4th Revolution: How the Infosphere Is Reshaping Human Reality, Oxford University Press, 2014.

[11]S. Cave and K. Dihal, S. Dillon, AI Narratives: A History of Imaginative Thinking About Intelligent Machines, New York: Oxford University Press, 2020.

[12][17][43]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).

[13]D. Hendrycks et al., “An Overview of Catastrophic AI Risks,“ arXiv preprint, 2023, arXiv:2306.12001.

[14]B. Christian, The Alignment Problem: Machine Learning and Human Values, New York: W. W. Norton & Company, 2020.

[15]J. Leike et al., "Scalable Agent Alignment via Reward Modeling: A Research Direction," arXiv preprint, 2018, arXiv:1811.07871.

[16]B. L. Hou, “Foundational Moral Values for AI Alignment,“ arXiv preprint, 2023, arXiv:2311.17017v1.

[18][27][36]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019.

[19]T. Arnold et al., "Value Alignment or Misalignment: What Will Keep Systems Accountable?" Proceedings of the AAAI Workshop on AI, Ethics, and Society, 2017, https://hrilab.tufts.edu/publications/arnoldetal17aiethics.pdf.

[20]R. Chang, Incommensurability, Incomparability, and Practical Reason, Cambridge: Harvard University Press, 1997; A. Sen, The Idea of Justice, Cambridge: Harvard University Press, 2009.

[21]H. Bull, The Anarchical Society: A Study of Order in World Politics, New York: Columbia University Press, 1977; 戴維·A.萊克：《國際關(guān)系中的等級制》，高婉妮譯，上海人民出版社，2013年。

[22]E. Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action, Cambridge University Press, 1990; A.-M. Slaughter, A New World Order, Princeton University Press, 2004.

[23]D. S. Grewal, Network Power: The Social Dynamics of Globalization, New Haven: Yale University Press, 2020.

[24]S. Cave and S. S. ÓhÉigeartaigh, "An AI Race for Strategic Advantage: Rhetoric and Risks," Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society, New Orleans, December 2018, https://doi.org/10.1145/3278721.3278780.

[25]G. J. Ikenberry, After Victory: Institutions, Strategic Restraint, and the Rebuilding of Order after Major Wars, Princeton University Press, 2001.

[26]亞歷山大·溫特：《國際政治的社會理論》，秦亞青譯，上海人民出版社，2008年。

[28]L. Floridi et al., The Ethics of Artificial Intelligence: Principles, Challenges, and Opportunities, New York: Oxford University Press, 2023.

[29]J. Rawls, A Theory of Justice, Cambridge, MA: Harvard University Press, 1971; E. Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action, Cambridge University Press, 1990.

[30]A. Dafoe, AI Governance: A Research Agenda, Oxford: Centre for the Governance of AI, 2020.

[31]J. Schuett et al., “Defining the Scope of AI Regulations,“ Law, Innovation & Technology, 2023, 20(1).

[32][58]H. Bull, The Anarchical Society: A Study of Order in World Politics, New York: Columbia University Press, 1977.

[33]D. G. Hawkins et al., Delegation and Agency in International Organizations, Cambridge University Press, 2006.

[34]M. C. Jensen and W. H. Meckling, "Theory of the Firm: Managerial Behavior, Agency Costs and Ownership Structure," Journal of Financial Economics, 1976, 3(4); K. M. Eisenhardt, "Agency Theory: An Assessment and Review," Academy of Management Review, 1989, 14(1).

[35]S. Legg and M. Hutter, "Universal Intelligence: A Definition of Machine Intelligence," Minds and Machines, 2007, 17(4).

[37]A. Korinek and E. Yudkowsky, "The Alignment Problem from a Deep Philosophical Perspective," arXiv Prepreint, 2025, arXiv:2209.00626v7.

[38]F. Doshi-Velez and B. Kim, "Towards a Rigorous Science of Interpretable Machine Learning," arXiv preprint, 2017, arXiv:1702.08608.

[39]Z. C. Lipton, "The Mythos of Model Interpretability," Communications of the ACM, 2018, 16(3).

[40]R. Jervis, The Meaning of the Nuclear Revolution: Statecraft and the Prospect of Armageddon, Ithaca, NY: Cornell University Press, 1989.

[41]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019; J. Clark and G. Hadfield, "Regulatory Markets for AI Safety," arXiv preprint, 2019, arXiv:1909.12863.

[42]M. C. Jensen and W. H. Meckling, "Theory of the Firm: Managerial Behavior, Agency Costs and Ownership Structure," Journal of Financial Economics, 1976, 3(4).

[44]H. Shen et al., "Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions," arXiv preprint, 2024, arXiv:2406.09264.

[45]R. Binns et al., "'It's Reducing a Human Being to a Percentage': Perceptions of Justice in Algorithmic Decisions," CHI '18: Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, Paper No.: 377, pp. 1–14, https://doi.org/10.1145/3173574.3173951.

[46]G. Irving et al., "AI Safety via Debate," arXiv preprint, 2018, arXiv:1805.00899; J. Leike et al., "Scalable Agent Alignment via Reward Modeling," arXiv preprint, 2018, arXiv:1811.07871.

[47]D. Misnawati et al., "The Impact of Artificial Intelligence on Human Interaction: Redefining Communication Norms," The Journal of Academic Science, 2025, 2(1).

[48]L. Floridi, The Fourth Revolution: How the Infosphere is Reshaping Human Reality, Oxford University Press, 2014.

[49]E. Yudkowsky, "Artificial Intelligence as a Positive and Negative Factor in Global Risk," in Global Catastrophic Risks, N. Bostrom and M. ?irkovi?(eds.), Oxford University Press, 2008.

[50]M. Bovens, The Quest for Responsibility: Accountability and Citizenship in Complex Organisations, Cambridge University Press, 1998.

[51]S. M. Breum et al., "The Persuasive Power of Large Language Models," Proceedings of the Eighteenth International AAAI Conference on Web and Social Media, 2024, file:///Users/xunpang/Downloads/31304-Article%20Text-35360-1-2-20240528.pdf.

[52]F. A. Hayek, "The Use of Knowledge in Society," American Economic Review, 1945, 35(4).

[53]N. Bobbio, The Future of Democracy: A Defence of the Rules of the Game, Minneapolis: University of Minnesota Press, 1989.

[54]R. A. Dahl, Democracy and Its Critics, New Haven: Yale University Press, 1989.

[55]J. Rawls, A Theory of Justice, Cambridge, MA: Harvard University Press, 1971.

[56]F. W. Scharpf, Games Real Actors Play: Actor-Centered Institutionalism in Policy Research, Boulder: Westview Press, 1997.

[57]J. S. Nye, The Future of Power, New York: Public Affairs, 2011.

[59]A. Giddens, The Constitution of Society: Outline of the Theory of Structuration, Berkeley: University of California Press, 1984; M. Zürn, A Theory of Global Governance: Authority, Legitimacy, and Contestation, Oxford University Press, 2018.

Global Order and AI Alignment

—A Theoretical Perspective of International Relations on Governing Technological Risk

Pang Xun

Abstract: From the theoretical perspective of International Relations, AI alignment is not only a core issue in the governance of technological risk but also a critical task for maintaining the stability of future global order. In recent years, research on AI alignment has gradually evolved from "direct alignment," which assumes the independence of individual goals, to a more structural concept of "social alignment," incorporating macro-level concerns such as preference externalities and collective value ordering. Going even deeper, AI alignment inevitably involves value conflicts, institutional coordination, and geopolitical tensions—issues that must be examined within the broader framework of global politics to ensure that the functions and values of a human-centered global order are preserved. This calls for what this article conceptualized "order alignment". AI is increasingly entering into novel and complex principal-agent relationships with humanity, which not only reshape the operational logic of existing global order but may also become embedded within its very structure. International Relations theory offers conceptual frameworks and analytical tools to identify and address the "principal problem," highlighting the structural and political nature of alignment. Only through political compromise and adaptive governance can we prevent AI from becoming a mere instrument of geopolitical rivalry and instead unlock its potential to benefit humanity.

Keywords: artificial intelligence, order, alignment, principal-agent, misalignment risk

責(zé) 編∕包鈺美編∕周群英

青青青手机视频在线观看,中文字幕老视频平台网站,国产在线精品观看一区,天天干天天草天天av,2023草草影院最新入口,日本黄色网站在线视频,亚洲日本欧美产综合在线

全球秩序與人工智能對齊

——超越技術(shù)問題的國際關(guān)系理論視角