青青青手机视频在线观看,中文字幕老视频平台网站,国产在线精品观看一区,天天干天天草天天av,2023草草影院最新入口,日本黄色网站在线视频,亚洲日本欧美产综合在线

網(wǎng)站首頁 | 網(wǎng)站地圖

每日推薦
首頁 > 原創(chuàng)精品 > 成果首發(fā) > 正文

全球秩序與人工智能對(duì)齊

——超越技術(shù)問題的國(guó)際關(guān)系理論視角

【摘要】在國(guó)際關(guān)系視角下,人工智能對(duì)齊不僅是技術(shù)風(fēng)險(xiǎn)治理的核心議題,更關(guān)乎未來全球秩序穩(wěn)定性。近年來,人工智能對(duì)齊研究逐步從假定個(gè)體目標(biāo)獨(dú)立性的“直接對(duì)齊”延伸至更具結(jié)構(gòu)性的“社會(huì)對(duì)齊”,在對(duì)齊過程中納入偏好的外部性和群體排序等宏觀層面問題。進(jìn)一步看,人工智能對(duì)齊還不可避免地涉及價(jià)值沖突、制度協(xié)調(diào)和地緣政治張力,亟需在全球政治框架中予以審視,確保由人類主導(dǎo)的全球秩序的功能和價(jià)值,即實(shí)現(xiàn)“秩序?qū)R”。人工智能正在與人類形成新型且復(fù)雜的“委托-代理”關(guān)系,不僅影響既有全球秩序的運(yùn)行邏輯,更可能演化為秩序的一部分。國(guó)際關(guān)系學(xué)能為對(duì)齊提供概念框架和分析工具以識(shí)別和解決“委托人問題”,揭示對(duì)齊的結(jié)構(gòu)性挑戰(zhàn)和政治本質(zhì)。唯有通過政治妥協(xié)和彈性治理,方能防止人工智能淪為地緣博弈工具,從而釋放其造福人類的潛力。

【關(guān)鍵詞】人工智能 秩序 對(duì)齊 委托-代理 錯(cuò)位風(fēng)險(xiǎn)

【中圖分類號(hào)】TP18/D815 【文獻(xiàn)標(biāo)識(shí)碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2025.09.008

【作者簡(jiǎn)介】龐珣,北京大學(xué)國(guó)際關(guān)系學(xué)院教授、北京大學(xué)全球風(fēng)險(xiǎn)政治分析實(shí)驗(yàn)室主任。研究方向?yàn)槿蝻L(fēng)險(xiǎn)政治與治理、經(jīng)濟(jì)與科技的地緣政治與安全、計(jì)算政治學(xué)、社會(huì)科學(xué)統(tǒng)計(jì)與數(shù)智方法。主要著作有《全球治理中的金磚國(guó)家外援合作》(專著)、《人工智能賦能社會(huì)科學(xué)研究探析——生成式行動(dòng)者、復(fù)雜因果分析與人機(jī)科研協(xié)同》(論文)、《反思與重構(gòu):全球安全與全球治理的風(fēng)險(xiǎn)政治理論及方法》(論文)等。

人工智能對(duì)齊的國(guó)際關(guān)系分析

人工智能對(duì)齊(AI alignment)旨在確保人工智能系統(tǒng)的目標(biāo)和行為與人類的意圖、利益和價(jià)值觀等保持一致,從而避免意外出現(xiàn)的負(fù)面后果。[1]這不僅是關(guān)于人工智能倫理和安全的核心研究議題,也是技術(shù)風(fēng)險(xiǎn)治理中的關(guān)鍵任務(wù)和長(zhǎng)期挑戰(zhàn)。[2]當(dāng)前,相關(guān)研究主要聚焦模型的行為可控性和目標(biāo)一致性,認(rèn)為人工智能對(duì)齊主要是借助技術(shù)手段(如優(yōu)化算法和反饋機(jī)制等)來加以解決的問題。[3]然而,人工智能對(duì)齊的意涵和挑戰(zhàn)遠(yuǎn)不止于此,它涉及廣泛而多元的利益和深層的價(jià)值維度,是關(guān)于全球性復(fù)雜風(fēng)險(xiǎn)的治理議題。[4]正因如此,在人工智能對(duì)齊領(lǐng)域中,構(gòu)建對(duì)齊目標(biāo)和過程的概念框架正在成為一項(xiàng)重要任務(wù),以期在目標(biāo)函數(shù)中納入利益和偏好的外部性,探究如何通過對(duì)群體目標(biāo)的排序和加總來表達(dá)社會(huì)性福利。[5]隨著哲學(xué)家和社會(huì)科學(xué)家越來越多的加入,人工智能對(duì)齊日益成為一項(xiàng)融合工程技術(shù)、哲學(xué)思辨和社會(huì)科學(xué)分析的復(fù)雜跨學(xué)科任務(wù)。

國(guó)際關(guān)系學(xué)對(duì)人工智能的發(fā)展給予了高度關(guān)注,這主要表現(xiàn)為聚焦國(guó)家間技術(shù)競(jìng)爭(zhēng)所引發(fā)的戰(zhàn)略風(fēng)險(xiǎn)以及關(guān)于技術(shù)標(biāo)準(zhǔn)和監(jiān)管制度的國(guó)際競(jìng)合。[6]這些探討極少涉及人工智能對(duì)齊問題,而是傾向于視其為純粹技術(shù)議題,從而難以看到國(guó)際關(guān)系學(xué)對(duì)這一重大問題可能作出的貢獻(xiàn)。然而,如果缺乏從人工智能對(duì)齊視角來討論技術(shù)的戰(zhàn)略風(fēng)險(xiǎn),國(guó)關(guān)學(xué)者在思考和分析人工智能風(fēng)險(xiǎn)治理時(shí)就可能缺乏有效的切入點(diǎn)和明確的問題意識(shí),分析和觀點(diǎn)容易流于抽象愿景的表達(dá)和對(duì)技術(shù)的一味警惕。同時(shí),如果缺乏全球宏觀視野和國(guó)際政治理論框架,人工智能對(duì)齊領(lǐng)域的工作也難以充分考量技術(shù)系統(tǒng)與國(guó)際秩序的同構(gòu)關(guān)系,可能導(dǎo)致狹隘和局部的對(duì)齊,不僅會(huì)強(qiáng)化全球數(shù)字分裂,還將背離人工智能對(duì)齊初衷,產(chǎn)生新的結(jié)構(gòu)性失調(diào)和失控。

因此,從國(guó)際關(guān)系理論視角審視人工智能對(duì)齊有其必要性和重要性。人工智能對(duì)齊不僅是技術(shù)風(fēng)險(xiǎn)治理的操作基礎(chǔ),更應(yīng)被視為支撐全球秩序穩(wěn)定的微觀機(jī)制。唯有在全球政治框架內(nèi)對(duì)其加以理解,才能有效應(yīng)對(duì)人工智能可能帶來的整體性和文明級(jí)挑戰(zhàn)。本文對(duì)秩序和對(duì)齊的關(guān)系進(jìn)行國(guó)際政治學(xué)分析,提出“秩序?qū)R”概念,在“委托-代理”理論框架下探討“秩序?qū)R”的理論基礎(chǔ)和核心問題。人工智能正在作為非傳統(tǒng)代理人(non-traditional agent)與人類建立起廣泛的“委托-代理”關(guān)系,這意味著對(duì)齊任務(wù)中的核心挑戰(zhàn)不是代理人問題,而是“委托人問題”(principal problem),即如何在地緣政治分化的全球現(xiàn)狀下,就人工智能系統(tǒng)的對(duì)齊目標(biāo)進(jìn)行正當(dāng)性構(gòu)建、價(jià)值協(xié)商和沖突協(xié)調(diào)。如何解決委托人問題不僅影響人工智能系統(tǒng)的可治理性,也關(guān)乎全球政治秩序的未來走向。

秩序?qū)R意味著,人工智能對(duì)齊是一個(gè)“二階段對(duì)齊模型”。第一階段的對(duì)齊發(fā)生在人類之間,通過全球范圍內(nèi)的政治協(xié)商和寬容妥協(xié),形成對(duì)全球基本秩序目標(biāo)的最大共識(shí)。[7]第二階段發(fā)生在人機(jī)之間,即借助技術(shù)路徑和算法機(jī)制來實(shí)施人工智能系統(tǒng)與上述共識(shí)目標(biāo)的對(duì)齊。國(guó)際關(guān)系學(xué)可為第一階段的對(duì)齊提供理論框架,尤其有助于在對(duì)齊任務(wù)中妥善納入對(duì)政治本質(zhì)和地緣風(fēng)險(xiǎn)的理解。政治是一個(gè)協(xié)調(diào)沖突性多元利益以及實(shí)現(xiàn)價(jià)值觀妥協(xié)和制度調(diào)適的動(dòng)態(tài)過程,可被視為對(duì)偏好和利益的經(jīng)驗(yàn)性而非規(guī)范性的“加總”機(jī)制。[8]在人工智能發(fā)展路徑高度不確定和國(guó)家間利益價(jià)值分歧顯著的現(xiàn)實(shí)中,發(fā)揮國(guó)際政治的加總機(jī)制,對(duì)于人工智能的秩序?qū)R至關(guān)重要。人工智能的秩序?qū)R應(yīng)直面主權(quán)國(guó)家體系的地緣政治現(xiàn)實(shí),充分考慮技術(shù)系統(tǒng)與局部目標(biāo)進(jìn)行“完美對(duì)齊”后加速和放大地緣政治競(jìng)爭(zhēng)的災(zāi)難性風(fēng)險(xiǎn);同時(shí),避免這種風(fēng)險(xiǎn)要求對(duì)齊的核心為以全球政治妥協(xié)為基礎(chǔ)的彈性治理。[9]人工智能對(duì)齊任務(wù)遠(yuǎn)遠(yuǎn)超出了技術(shù)范疇,而是取決于人類如何在全球范圍內(nèi)構(gòu)建共同治理框架。

人工智能對(duì)齊:超越技術(shù)的技術(shù)風(fēng)險(xiǎn)治理

人工智能風(fēng)險(xiǎn)治理與對(duì)齊任務(wù)。隨著人工智能的快速演進(jìn),公眾、學(xué)界和政界圍繞其未來發(fā)展形成了矛盾交織的兩種敘事。第一種敘事高度期待人工智能突破人類認(rèn)知和行動(dòng)邊界,將其視為推動(dòng)生產(chǎn)力發(fā)展和科技創(chuàng)新的發(fā)動(dòng)機(jī)。[10]另一種敘事則籠罩著通用人工智能(AGI)或超級(jí)人工智能的未來陰影,對(duì)“異類智能”帶來深層不確定性深感憂慮,甚至對(duì)存在性風(fēng)險(xiǎn)的末世想象揮之不去。[11]這樣的雙重?cái)⑹卤憩F(xiàn)出技術(shù)想象中希望和恐懼之間的張力,也構(gòu)成了人工智能治理的重要語境。人工智能技術(shù)帶來的機(jī)遇可以被具象化為可見的產(chǎn)品或場(chǎng)景,但其風(fēng)險(xiǎn)卻具有潛在性、模糊性和可爭(zhēng)議性的特征,更難以達(dá)成共識(shí),也更易受到想象的支配。

通過保證技術(shù)系統(tǒng)的目標(biāo)和行為對(duì)齊人類意圖和價(jià)值來實(shí)現(xiàn)技術(shù)風(fēng)險(xiǎn)治理,這在歷史上前所未有。從前的技術(shù)無論多么具有“革命性”,但都不具備智能性和能動(dòng)性,也就談不上與人的“對(duì)齊”。人工智能的特殊性在于,其風(fēng)險(xiǎn)不僅源于技術(shù)的功能性能力,更因其作為“技術(shù)代理人”(technical agent)而在目標(biāo)追求和決策執(zhí)行中具有相對(duì)自主性,產(chǎn)生偏離人類意圖、目標(biāo)與價(jià)值觀的可能性。[12]尤其在AGI語境下,“代理人風(fēng)險(xiǎn)”可能演化為全球?qū)用娴南到y(tǒng)性風(fēng)險(xiǎn),進(jìn)而可能影響整個(gè)人類文明的未來發(fā)展軌跡。因此,確保人工智能系統(tǒng)行為的可預(yù)測(cè)性及其與人類價(jià)值的對(duì)齊,成為人工智能研究中的核心議題。

既有研究系統(tǒng)性地總結(jié)了人工智能風(fēng)險(xiǎn)的四個(gè)主要來源:其一是惡意使用,即出于造成廣泛破壞的目的而操縱人工智能技術(shù);其二是技術(shù)競(jìng)賽壓力,即各方在缺乏充分安全保障的情況下,為爭(zhēng)奪技術(shù)優(yōu)勢(shì)而加速推進(jìn)研發(fā);其三是組織管理風(fēng)險(xiǎn),即由于制度設(shè)計(jì)不善、激勵(lì)機(jī)制扭曲或信息不對(duì)稱等導(dǎo)致人工智能系統(tǒng)被誤用;其四是超級(jí)智能的潛在失控,尤其在追求復(fù)雜目標(biāo)的過程中,人工智能系統(tǒng)可能將“獲取權(quán)力”視為一種工具性手段,并逐漸演化為將權(quán)力本身作為終極目標(biāo)。AGI很可能將權(quán)力的獲取視為實(shí)現(xiàn)各類目標(biāo)的普遍最優(yōu)策略,進(jìn)而演變?yōu)橐环N“追逐權(quán)力的系統(tǒng)”(power-seeking system)。人工智能對(duì)權(quán)力的追求不僅可以針對(duì)其他人工智能系統(tǒng),也對(duì)人類構(gòu)成威脅。[13]

可見,人工智能對(duì)齊關(guān)系到技術(shù)系統(tǒng)的安全性和可控性,是實(shí)現(xiàn)有效風(fēng)險(xiǎn)治理的基礎(chǔ)。[14]當(dāng)今人工智能系統(tǒng)自主性水平快速提升,日益廣泛地應(yīng)用于社會(huì)生活各領(lǐng)域,并逐漸擴(kuò)散至高風(fēng)險(xiǎn)決策應(yīng)用場(chǎng)景,如醫(yī)療、金融、司法與軍事等。這讓人工智能偏離人類目標(biāo)和價(jià)值的風(fēng)險(xiǎn)愈加突出,人類因這些潛在風(fēng)險(xiǎn)可能付出的代價(jià)也呈指數(shù)級(jí)增長(zhǎng),這使得構(gòu)建一套有效的治理機(jī)制以實(shí)現(xiàn)其價(jià)值對(duì)齊和行為可控成為當(dāng)務(wù)之急。同時(shí),人工智能風(fēng)險(xiǎn)的重要性、復(fù)雜性和多樣性,決定了對(duì)齊任務(wù)遠(yuǎn)遠(yuǎn)超出“技術(shù)-用戶”的直接對(duì)齊,呼喚來自不同學(xué)科的有識(shí)之士加入對(duì)這一議題的思考和探索。

人工智能對(duì)齊范疇的擴(kuò)展:從“直接對(duì)齊”到“社會(huì)對(duì)齊”。“直接對(duì)齊”指確保人工智能系統(tǒng)的目標(biāo)與其直接用戶的意圖保持一致,主要采取強(qiáng)化學(xué)習(xí)中的人類反饋機(jī)制(RLHF)等路徑,優(yōu)化人工智能對(duì)個(gè)體偏好的響應(yīng)能力。[15]這種對(duì)齊聚焦直接用戶的目標(biāo),并假定這些目標(biāo)具有可操作性和正當(dāng)性,而人工智能系統(tǒng)的對(duì)齊任務(wù)就在于準(zhǔn)確理解并忠實(shí)執(zhí)行這些目標(biāo)。隨著人工智能系統(tǒng)日益具備復(fù)雜的自主決策能力,其行為所帶來的后果往往超出單一用戶范疇,進(jìn)而產(chǎn)生廣泛而重要的社會(huì)外部性。在開放環(huán)境中,用戶并非孤立的行動(dòng)者,其目標(biāo)達(dá)成往往涉及與他人的互動(dòng)、博弈甚至操控。例如,用戶可能通過人工智能系統(tǒng)精準(zhǔn)地操控話術(shù)和情境,騙取他人信任,從而實(shí)現(xiàn)自身利益最大化。“直接對(duì)齊”表面上符合技術(shù)性效用最優(yōu)化,但卻可能嚴(yán)重?fù)p害個(gè)人尊嚴(yán)和福利,違背社會(huì)基本倫理和危害社會(huì)秩序。[16]

鑒于此,人工智能對(duì)齊須將行為的社會(huì)后果系統(tǒng)性地納入考量,這推動(dòng)了對(duì)齊研究從“直接對(duì)齊”擴(kuò)展至“社會(huì)對(duì)齊”(social alignment)范疇。“社會(huì)對(duì)齊”強(qiáng)調(diào)人工智能系統(tǒng)的目標(biāo)函數(shù)應(yīng)內(nèi)生化個(gè)體行為的外部性,以社會(huì)整體福祉為優(yōu)化基準(zhǔn)。[17]這一擴(kuò)展要求從對(duì)齊個(gè)體偏好到對(duì)齊規(guī)范性社會(huì)價(jià)值,在人工智能系統(tǒng)對(duì)齊中引入某種形式的“社會(huì)福利函數(shù)”(social welfare function)。[18]然而,設(shè)計(jì)社會(huì)福利函數(shù)并非純技術(shù)性任務(wù),而是深植于倫理哲學(xué)和政治理論。不同的規(guī)范取向會(huì)衍生出差異化的對(duì)齊路徑,例如,功利主義強(qiáng)調(diào)結(jié)果導(dǎo)向和整體效用最大化,義務(wù)論關(guān)心行動(dòng)是否符合某些先驗(yàn)的道德規(guī)范,而美德倫理則重視行為背后的動(dòng)機(jī)和角色特征。如何在多元價(jià)值之間構(gòu)建人工智能系統(tǒng)的決策基礎(chǔ),是“社會(huì)對(duì)齊”的關(guān)鍵議題。[19]此外,社會(huì)選擇理論揭示了集體偏好的不可傳遞性(intransitivity of collective preferences)(如阿羅不可能定理),表明在多主體環(huán)境中構(gòu)建穩(wěn)定和公正的社會(huì)福利函數(shù)本身就是一個(gè)悖論。這些都意味著人工智能的“社會(huì)對(duì)齊”并不是一蹴而就的,而是一個(gè)需要持續(xù)性制度設(shè)計(jì)和政治協(xié)商的過程。

人工智能的秩序?qū)R:科技變革下的全球秩序問題

任何對(duì)群體目標(biāo)進(jìn)行排序或加總的原則,都難以在客觀上確立普適且唯一的最優(yōu)標(biāo)準(zhǔn)。尤其當(dāng)涉及廣泛的個(gè)體與群體時(shí),目標(biāo)之間不僅存在差異,還可能在本質(zhì)上不可通約(incommensurability),甚至具有結(jié)構(gòu)性沖突。[20]這意味著,人工智能對(duì)齊不能僅簡(jiǎn)單考慮個(gè)體偏好和行為的外部性,還需正視和處理目標(biāo)之間可能存在的沖突和矛盾。從全球?qū)用鎭砜?,人工智能?duì)齊任務(wù)成為這樣一個(gè)命題,即當(dāng)技術(shù)不可避免地成為人類秩序的一部分時(shí),如何在多元利益的沖突中建立和維持基本秩序。這要求人工智能對(duì)齊從“社會(huì)對(duì)齊”范疇繼續(xù)擴(kuò)展至“秩序?qū)R”。

秩序與對(duì)齊。秩序和對(duì)齊是兩個(gè)內(nèi)在關(guān)聯(lián)的概念。盡管學(xué)界存在對(duì)“秩序”(order)的多種定義,但基本認(rèn)可秩序是為行為體的行動(dòng)和互動(dòng)提供框架結(jié)構(gòu),從而構(gòu)建可預(yù)測(cè)、可協(xié)調(diào)的系統(tǒng)環(huán)境。[21]秩序的核心功能在于為體系提供穩(wěn)定性保障,包括在最低層次上確保安全,使行動(dòng)者能夠形成關(guān)于自身生存與未來發(fā)展的穩(wěn)定預(yù)期,以及在更高層面上為促進(jìn)合作、構(gòu)建制度和實(shí)現(xiàn)價(jià)值提供基礎(chǔ)可能性。秩序所提供的穩(wěn)定性依賴于對(duì)體系內(nèi)部沖突進(jìn)行持續(xù)性預(yù)防、管理和調(diào)節(jié)。秩序既可以是自發(fā)演化而成的協(xié)同結(jié)構(gòu),具有較高的彈性和容錯(cuò)性,也可以依賴第三方權(quán)威得以建立和執(zhí)行,表現(xiàn)為剛性的治理結(jié)構(gòu)。[22]但無論其起源和類型如何,秩序得以建立、維系并發(fā)揮實(shí)際效能的前提,是體系成員在理念、原則及行為實(shí)踐等層面達(dá)到一定程度的“對(duì)齊”,即在關(guān)鍵目標(biāo)、規(guī)則、價(jià)值和底線規(guī)范上達(dá)成基本共識(shí)。

從廣義上看,“對(duì)齊”(alignment)指不同行為體的目標(biāo)、行為或功能在某種共享框架內(nèi)達(dá)成協(xié)調(diào)一致的過程。這種協(xié)調(diào)并非二值狀態(tài),而是具有連續(xù)性和多樣性,可以有不同的程度、類型和方向。對(duì)齊既可以是認(rèn)知和價(jià)值層面的趨同,也可以是機(jī)制和行為層面的協(xié)調(diào);對(duì)齊過程既可能是自發(fā)演化,也可由權(quán)力施加和制度約束來推動(dòng)。對(duì)齊在各個(gè)面向上的特征決定了秩序的特征,例如,對(duì)齊程度的高低影響秩序的強(qiáng)弱,對(duì)齊的方向(水平協(xié)同或垂直統(tǒng)攝)關(guān)系到秩序的中心化程度和權(quán)力分布,對(duì)齊的目標(biāo)和原則奠定了秩序的價(jià)值取向和合法性基礎(chǔ)。[23]同時(shí),對(duì)齊在程度和目標(biāo)上一旦發(fā)生變化就會(huì)引發(fā)秩序的調(diào)整、重構(gòu)甚至范式性變革。構(gòu)建或改變社會(huì)秩序也總是通過重塑對(duì)齊目標(biāo)和規(guī)則配置得以實(shí)現(xiàn)。因此,理解“對(duì)齊”是理解秩序演化的一個(gè)重要理論切入點(diǎn)。

人工智能對(duì)齊之所以如此重要,正是由于其可能對(duì)人類所建立和主導(dǎo)的秩序產(chǎn)生巨大影響。在當(dāng)前及可預(yù)見的未來,人工智能將深刻重塑國(guó)際體系中的國(guó)家關(guān)系結(jié)構(gòu)和權(quán)力格局。一方面,人工智能正逐漸成為影響國(guó)家競(jìng)爭(zhēng)力的重要變量;另一方面,人工智能系統(tǒng)本身日益具備行動(dòng)能力與決策功能,以行為體的身份成為秩序的一部分。[24]從秩序與對(duì)齊的關(guān)系可以看出,構(gòu)建人工智能對(duì)齊框架需考慮至少以下兩個(gè)重要方面:一是人工智能系統(tǒng)如何適應(yīng)人類社會(huì)價(jià)值體系和利益結(jié)構(gòu)的高度復(fù)雜性,二是如何確保人工智能融入人類系統(tǒng)后全球基本秩序的穩(wěn)定??梢姡斯ぶ悄軐?duì)齊不應(yīng)被視為純粹的技術(shù)挑戰(zhàn),而應(yīng)作為全球秩序構(gòu)建的重要變量納入系統(tǒng)性考量。

在傳統(tǒng)國(guó)際秩序理論中,大國(guó)關(guān)系是核心關(guān)切,因?yàn)榇髧?guó)間達(dá)成的“基準(zhǔn)對(duì)齊”(baseline alignment)能夠通過權(quán)力投射、規(guī)則擴(kuò)散和制度設(shè)計(jì),輻射甚至強(qiáng)制其他行為體與秩序?qū)R,從而支撐起全球秩序的基本架構(gòu)。[25]在當(dāng)前和未來,人工智能將逐步成為一種新的強(qiáng)大的戰(zhàn)略行為體,其系統(tǒng)能力和跨境作用機(jī)制,可能使其具備可與國(guó)家比肩的系統(tǒng)性影響力。值得警惕的是,人們往往因人工智能缺乏有機(jī)體和自主意識(shí)而忽視其成為行為體的可能。從國(guó)際關(guān)系理論角度看,當(dāng)前世界的主要國(guó)際行為體(如國(guó)家、國(guó)際組織、跨國(guó)企業(yè)等)基本是制度性的非有機(jī)體,其行為的生成性主要依賴于規(guī)則系統(tǒng)和信息處理結(jié)構(gòu)。事實(shí)上,決策模型和行動(dòng)系統(tǒng)是國(guó)際關(guān)系學(xué)中行為體的核心維度。[26]因此,人工智能并不因其缺乏生物基礎(chǔ)而無法成為國(guó)際關(guān)系行為體。相反,人工智能實(shí)際上已經(jīng)開始廣泛嵌入國(guó)際體系,在與現(xiàn)有行為體的互動(dòng)中塑造這一體系。

更為重要的是,人工智能系統(tǒng)之間的互動(dòng)日益頻繁,其部署方式也日臻復(fù)雜,將越來越多地通過協(xié)同或?qū)箼C(jī)制完成各類任務(wù)。這預(yù)示著一個(gè)由人工智能系統(tǒng)構(gòu)成的次級(jí)“生態(tài)體系”正在形成,并逐漸與人類社會(huì)主導(dǎo)的全球政治結(jié)構(gòu)形成深度耦合。在一些決策領(lǐng)域中,人工智能甚至開始主導(dǎo)關(guān)鍵判斷過程,形成“人機(jī)共治”現(xiàn)實(shí)。因此,在全球治理的新圖景中,人工智能生態(tài)系統(tǒng)與人類生態(tài)系統(tǒng)將并存和互嵌。這一趨勢(shì)提出了一個(gè)根本性問題,那就是人工智能是否能夠、又應(yīng)當(dāng)如何與人類秩序系統(tǒng)進(jìn)行有效對(duì)齊,以保障一個(gè)可持續(xù)和可協(xié)同的全球未來。

秩序?qū)R:人工智能對(duì)齊的第三范疇。從秩序和對(duì)齊的關(guān)系來看,人工智能系統(tǒng)在接收來自個(gè)體或群體的目標(biāo)輸入時(shí),必須評(píng)估這些目標(biāo)所涉及的廣泛網(wǎng)絡(luò),以及這些網(wǎng)絡(luò)對(duì)秩序的潛在影響。目標(biāo)之間的不可通約性和潛在沖突性,要求人工智能系統(tǒng)在制定決策時(shí)突破簡(jiǎn)單的效用最大化,關(guān)注如何在沖突中維持系統(tǒng)的協(xié)調(diào)和秩序。[27]換言之,人工智能對(duì)齊不僅應(yīng)超越“直接對(duì)齊”,也不應(yīng)止步于“社會(huì)對(duì)齊”,需更進(jìn)一步關(guān)注如何在一個(gè)高度復(fù)雜且動(dòng)態(tài)變化的利益結(jié)構(gòu)中維護(hù)系統(tǒng)的穩(wěn)定、規(guī)范和秩序。[28]這就是本文提出的“秩序?qū)R”。

秩序?qū)R的核心在于,人工智能系統(tǒng)不應(yīng)僅追求局部范圍內(nèi)的效用最大化,而應(yīng)在執(zhí)行與人類目標(biāo)相關(guān)的任務(wù)時(shí),始終對(duì)齊人類社會(huì)賴以維系的基本秩序。秩序并非由一組靜態(tài)不變的價(jià)值預(yù)設(shè)構(gòu)成,而是處理目標(biāo)沖突、管控系統(tǒng)性風(fēng)險(xiǎn)、維持合作關(guān)系和促進(jìn)正義分配的人類基本共識(shí)。[29]通過秩序?qū)R,人工智能系統(tǒng)才能在多元價(jià)值并存、目標(biāo)持續(xù)演化、沖突不可避免的復(fù)雜現(xiàn)實(shí)中,有效維護(hù)人類系統(tǒng)的結(jié)構(gòu)性穩(wěn)定和可持續(xù)發(fā)展。[30]

秩序?qū)R要求人工智能系統(tǒng)超越對(duì)個(gè)體目標(biāo)的線性排序邏輯,關(guān)注不同利益目標(biāo)之間的互動(dòng)關(guān)系和調(diào)和方式。對(duì)齊任務(wù)的核心不在于如何為各類目標(biāo)賦予數(shù)值權(quán)重,而在于構(gòu)建一種能夠容納基本規(guī)則與制度原則的動(dòng)態(tài)目標(biāo)函數(shù)。人類社會(huì)的整體目標(biāo)從來都不是通過中央機(jī)構(gòu)或先驗(yàn)理論框架加以固定和執(zhí)行的。歷史經(jīng)驗(yàn)表明,全球秩序總是在地緣政治的博弈與妥協(xié)中動(dòng)態(tài)生成。因此,秩序本身并非靜態(tài)可編程的終極目標(biāo),而是一種在沖突中演化、在規(guī)則中維系的狀態(tài)。承認(rèn)目標(biāo)之間的張力和沖突,以及秩序的歷史性和動(dòng)態(tài)性,是實(shí)現(xiàn)可持續(xù)人工智能對(duì)齊的基本認(rèn)知前提。已有研究開始關(guān)注到這一點(diǎn),提出了人工智能的“政治對(duì)齊”(political alignment)。這一維度強(qiáng)調(diào)融合不同的政治利益和監(jiān)管限制,以促進(jìn)在不同政治格局中進(jìn)行負(fù)責(zé)任的人工智能開發(fā)和部署。[31]與秩序?qū)R概念相似,這里的政治對(duì)齊也強(qiáng)調(diào)對(duì)齊目標(biāo)本身的政治構(gòu)建性,要求人工智能系統(tǒng)在制度約束和合法性結(jié)構(gòu)中運(yùn)行。

人工智能的興起,在人類歷史上首次出現(xiàn)了一種非人類系統(tǒng)對(duì)秩序演化路徑的廣泛深刻影響,使得“誰決定秩序”成為一個(gè)更具開放性和緊迫性的問題。人工智能對(duì)齊關(guān)系到如何確保人類能夠決定自身的未來,這也正是秩序?qū)R試圖回應(yīng)的核心挑戰(zhàn)。雖然現(xiàn)有國(guó)際秩序從未實(shí)現(xiàn)真正意義上的“全體人類共決”,但其正當(dāng)性始終建立在人類社會(huì)內(nèi)部的政治協(xié)商基礎(chǔ)之上。[32]

人工智能秩序?qū)R中的“委托-代理”問題

國(guó)際關(guān)系學(xué)的核心議題之一是:在缺乏中央權(quán)威的國(guó)際無政府狀態(tài)下,在利益、目標(biāo)和意圖等方面相互沖突的行為體如何實(shí)現(xiàn)基本對(duì)齊,從而建立和保障和平共存的基本秩序,以及構(gòu)建促進(jìn)和平、公正與繁榮的高層次秩序。這樣的對(duì)齊在傳統(tǒng)上主要發(fā)生于主權(quán)國(guó)家間的水平互動(dòng),但隨著全球秩序演化以及國(guó)際行為體的多元化,國(guó)家和國(guó)際組織以及跨國(guó)公司等非國(guó)家行為體之間建立起復(fù)雜而普遍的“委托-代理”關(guān)系。特別是在“霸權(quán)之后”的制度性秩序構(gòu)建中,國(guó)家往往通過制度設(shè)計(jì),將特定秩序任務(wù)委托給國(guó)際組織和其他行為體。[33]“委托-代理”理論也因此成為理解國(guó)際秩序的重要分析框架。在理解人工智能系統(tǒng)的秩序?qū)R方面,這一框架有助于揭示其中的關(guān)鍵難題。

人工智能全球治理中的“委托-代理”問題。建立和維持大規(guī)模社會(huì)秩序,不可避免地要依賴“委托-代理”(principal-agent)關(guān)系的建立和發(fā)揮效能。“委托-代理”理論起源于經(jīng)濟(jì)學(xué)和組織理論,用以分析當(dāng)一方(委托人)將任務(wù)交予另一方(代理人)執(zhí)行時(shí),因信息不對(duì)稱、目標(biāo)不一致和監(jiān)督成本等問題,代理人行為可能偏離委托人意圖,造成效率損失和風(fēng)險(xiǎn)。[34]這一理論廣泛應(yīng)用于公司管理、公共政策、法律、政治學(xué)和國(guó)際關(guān)系等領(lǐng)域。

有效的授權(quán)機(jī)制可以提升委托人實(shí)現(xiàn)目標(biāo)的能力,但授權(quán)始終伴隨“錯(cuò)位風(fēng)險(xiǎn)”(misalignment risk),這正是“委托-代理”難題的核心所在。錯(cuò)位風(fēng)險(xiǎn)來源于代理人的三個(gè)關(guān)鍵特征,一是目標(biāo)導(dǎo)向的行動(dòng)能力,二是在執(zhí)行任務(wù)的過程中擁有一定自由裁量空間,三是由于信息不對(duì)稱或監(jiān)督成本高昂難以被完全控制。在歷史和現(xiàn)實(shí)中,人類授權(quán)的代理人多種多樣,包括人類個(gè)體、組織、制度性實(shí)體,甚至包括動(dòng)物(如信鴿和牧羊犬),都在不同程度上具有代理人的以上三種特征。

在人工智能出現(xiàn)之前,無論多么強(qiáng)大的技術(shù),都是缺乏自主意圖的被動(dòng)工具,未曾被視為代理人。但當(dāng)前的人工智能系統(tǒng)則不同,具備了成為代理人的特征。首先,代理人須具有目標(biāo)導(dǎo)向性的行動(dòng)能力,智能正是在多種環(huán)境中實(shí)現(xiàn)目標(biāo)的能力。[35]現(xiàn)代人工智能系統(tǒng)通過優(yōu)化預(yù)設(shè)的目標(biāo)函數(shù)來完成任務(wù)。盡管這些目標(biāo)最初由人類設(shè)計(jì),但人工智能系統(tǒng)會(huì)通過自主制定一系列工具性目標(biāo)(instrumental goals)來更高效地實(shí)現(xiàn)最終目標(biāo)。這類目標(biāo)設(shè)定雖非出于自主意識(shí),卻已展現(xiàn)出超越傳統(tǒng)工具的智能特征。[36]

其次,人工智能具備一定程度的自由裁量權(quán)(discretionary power)。以大語言模型為代表的生成式人工智能,在遵循底層算法邏輯的同時(shí),展現(xiàn)出在任務(wù)執(zhí)行路徑和輸出內(nèi)容上的高度靈活性。其行為雖受訓(xùn)練數(shù)據(jù)和算法框架的約束,但在給定輸入下的響應(yīng)具有一定程度的隨機(jī)性和不可預(yù)測(cè)性,使其決策過程具備了近似“裁量”的特征。這種在特定邊界內(nèi)的行為自主性,構(gòu)成了人工智能作為代理人區(qū)別于傳統(tǒng)工具的關(guān)鍵所在。[37]

最后,人工智能的“黑箱”性質(zhì)進(jìn)一步加劇了“委托-代理”問題的復(fù)雜性。現(xiàn)代人工智能系統(tǒng)大都依賴深度神經(jīng)網(wǎng)絡(luò),其內(nèi)部表征與推理路徑缺乏透明度,難以被人類解讀和解釋。盡管可解釋人工智能(Explainable AI, XAI)試圖提升模型透明度,但這些方法能夠提高的僅是系統(tǒng)輸出的可信度與可驗(yàn)證性,而非徹底打破“黑箱”結(jié)構(gòu)。[38]雖然這并不意味著人工智能完全不可控,但對(duì)基于監(jiān)督、合約和激勵(lì)的傳統(tǒng)代理關(guān)系構(gòu)成了挑戰(zhàn)。[39]

人工智能的這些特征,意味著人類首次需要與具備一定自主性和策略性的技術(shù)之間建立“委托-代理”關(guān)系,這不僅重新定義了對(duì)齊任務(wù)的內(nèi)涵,更改變了人類秩序構(gòu)建的底層邏輯。從霍布斯到洛克的社會(huì)契約理論,可以被理解為一種宏觀層面的“委托-代理”結(jié)構(gòu)——公民授權(quán)給國(guó)家建立社會(huì)秩序和提供安全保障。人工智能對(duì)齊之所以對(duì)秩序構(gòu)成深刻挑戰(zhàn),在于人與技術(shù)之間可能首次建立起廣泛、持續(xù)并具有結(jié)構(gòu)性影響的“委托-代理”關(guān)系。縱觀歷史,所有重大科技革命——從蒸汽機(jī)到互聯(lián)網(wǎng)——雖然帶來了效率和組織方式上的巨大變革,但其對(duì)秩序產(chǎn)生的沖擊,都是通過人與人之間關(guān)系重構(gòu)與重新對(duì)齊來實(shí)現(xiàn)的。技術(shù)本身并不具備能動(dòng)性,而是通過帶來紅利和風(fēng)險(xiǎn),迫使人類在分配、治理、責(zé)任與規(guī)范等層面重新協(xié)商目標(biāo)和價(jià)值,從而影響制度安排和秩序結(jié)構(gòu)。

以第二次世界大戰(zhàn)后的全球秩序?yàn)槔思夹g(shù)帶來的沖擊和風(fēng)險(xiǎn)具有全球的整體性和文明級(jí)的人類生存性,但其對(duì)秩序的重塑并非通過廣泛嵌入人類秩序來實(shí)現(xiàn)。核技術(shù)對(duì)秩序的影響,來自美蘇在“核恐怖平衡”中實(shí)現(xiàn)的心理和戰(zhàn)略對(duì)齊,即人類及其組織對(duì)技術(shù)風(fēng)險(xiǎn)的共同認(rèn)知、共同承受和制度性管理。[40]其中,“技術(shù)-人類對(duì)齊-秩序”之間的關(guān)系非常清晰。技術(shù)不是直接塑造秩序的行為體,而是激發(fā)人類集體協(xié)調(diào)的外部變量。秩序的真正基礎(chǔ)仍是人類行為體之間的目標(biāo)對(duì)齊,而非人與技術(shù)之間的協(xié)調(diào)。

人工智能的出現(xiàn)打破了這一間接性邏輯。由于其具備代理人的核心屬性,人工智能正在成為真正意義上的“參與性代理者”(participatory agent),而不僅是人類行為的延伸工具。這種新型的“委托-代理”關(guān)系,可能將人類社會(huì)帶入前所未有的秩序不確定性之中。[41]更具挑戰(zhàn)性的是,人工智能系統(tǒng)之間可能發(fā)展出一種高度內(nèi)生化的“對(duì)齊機(jī)制”,系統(tǒng)間的信息互通和策略協(xié)調(diào)能力遠(yuǎn)遠(yuǎn)超出人類之間的協(xié)調(diào)和對(duì)齊能力,從而突破人類對(duì)人工智能的理解和控制。發(fā)生于人工智能系統(tǒng)內(nèi)部的“瞬時(shí)對(duì)齊”可能衍生出脫嵌于人類規(guī)則體系之外的次生秩序系統(tǒng)(secondary order system),不再以人類為核心權(quán)威,也未必尊重既有的價(jià)值排序和邏輯。這不僅意味著對(duì)現(xiàn)有治理體系的重構(gòu),更關(guān)乎一個(gè)根本性問題,那就是人類是否還能在未來秩序中維持主體性和主導(dǎo)權(quán)。

從“代理人”問題到“委托人”問題。在傳統(tǒng)上,“委托-代理”問題簡(jiǎn)稱為“代理人問題”(agent problem),因其核心在于如何設(shè)計(jì)激勵(lì)和監(jiān)督機(jī)制,在發(fā)揮代理人能動(dòng)性的同時(shí),保證其忠實(shí)于委托人的目標(biāo)和利益。在經(jīng)典治理結(jié)構(gòu)中,防范錯(cuò)位風(fēng)險(xiǎn)主要依賴于對(duì)代理人行為的約束、監(jiān)督和激勵(lì)設(shè)計(jì)。[42]這一框架假定委托人單一且明確,目標(biāo)清晰、穩(wěn)定且可衡量,從而對(duì)齊任務(wù)的難度主要來自代理人方面偏離目標(biāo)的風(fēng)險(xiǎn)。然而,在人工智能時(shí)代,這一假定面臨根本挑戰(zhàn)。人工智能系統(tǒng)面向多個(gè)利益相關(guān)方提供服務(wù),委托人不再是單一個(gè)體或組織,而是具有多重偏好和沖突目標(biāo)的集合體。[43]于是,人工智能代理人究竟應(yīng)當(dāng)對(duì)齊誰的目標(biāo),又如何在目標(biāo)沖突中作出選擇?

當(dāng)前,多數(shù)研究仍將人工智能對(duì)齊視為技術(shù)性控制問題,從“代理人問題”切入以解決“技術(shù)性錯(cuò)位風(fēng)險(xiǎn)”(如強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)建模、偏好提取、可解釋性提升等)。但人工智能對(duì)齊任務(wù)中更具挑戰(zhàn)性的是“委托人問題”(the problem of the principal)。如果說“代理人問題”是技術(shù)層面的問題,那么“委托人問題”則是關(guān)于人類如何在人機(jī)共存的體系中審視現(xiàn)有秩序,確保人類安全和價(jià)值的根本性問題。

關(guān)于何為人機(jī)對(duì)齊、對(duì)齊目標(biāo)及應(yīng)對(duì)齊的對(duì)象,學(xué)界尚未形成普遍共識(shí)。[44]“與誰對(duì)齊”“對(duì)齊什么”“如何對(duì)齊”的三重問題,正是委托人問題。在傳統(tǒng)“委托-代理”關(guān)系中,委托人通常是具象的個(gè)體或組織,委托給代理人執(zhí)行的目標(biāo)和意圖也定義明確和邊界清晰。例如,個(gè)人委托房屋中介尋找房源,政府委托中央銀行制定和執(zhí)行貨幣政策,捐助國(guó)委托國(guó)際發(fā)展銀行分配對(duì)外援助等。然而,面對(duì)關(guān)乎人類未來的人工智能系統(tǒng),“委托人”成為“人類整體”,但“人類”卻并非作為一個(gè)整體而存在,而是由文化、利益、價(jià)值觀高度多元的個(gè)體和群體構(gòu)成。除基本生存需求外,個(gè)體和群體在自由與安全、發(fā)展與公正等各種議題上存在長(zhǎng)期分歧。[45]這意味著,對(duì)一些“人類”的目標(biāo)和偏好所進(jìn)行的“對(duì)齊”,對(duì)另一些“人類”而言很有可能就是“錯(cuò)位”。

相關(guān)問題的爭(zhēng)議也出現(xiàn)在關(guān)于委托人目標(biāo)方面。即使在人工智能“直接對(duì)齊”領(lǐng)域中已經(jīng)形成諸如可擴(kuò)展監(jiān)督(scalable oversight)、安全評(píng)估(如紅隊(duì)測(cè)試)、博弈建模和多利益相關(guān)者參與等多種技術(shù)路徑來實(shí)現(xiàn)對(duì)齊,但這些方法所要求的目標(biāo)清晰性往往很難實(shí)現(xiàn)。[46]由于人工智能的代理任務(wù)范圍不斷擴(kuò)展,委托授權(quán)越來越缺乏明確的邊界。同時(shí),問題的復(fù)雜性還在于,人工智能應(yīng)對(duì)齊委托人表達(dá)出來的意圖,還是應(yīng)對(duì)齊推斷出來的目標(biāo),抑或?qū)R規(guī)范意義上的“應(yīng)然目標(biāo)”?不同的回答促成了對(duì)齊方向的根本差異。若對(duì)“應(yīng)然目標(biāo)”進(jìn)行過度解讀,人工智能可能演變?yōu)榈赖陆袒到y(tǒng);但若僅對(duì)明確表達(dá)的目標(biāo)進(jìn)行對(duì)齊,則可能放任非理性甚至自毀行為。此外,委托人的意圖具有時(shí)間敏感性和情境依賴性,且可能在與人工智能系統(tǒng)的互動(dòng)過程中發(fā)生搖擺甚至被反向塑造。[47]

當(dāng)從直接對(duì)齊擴(kuò)展至社會(huì)對(duì)齊和秩序?qū)R后,對(duì)齊目標(biāo)更難以清晰化。當(dāng)對(duì)齊目標(biāo)從個(gè)體偏好轉(zhuǎn)向集體偏好后,就不可避免地涉及目標(biāo)的傳遞機(jī)制、風(fēng)險(xiǎn)的控制架構(gòu)以及社會(huì)的系統(tǒng)性協(xié)調(diào)。[48]偏好排序和社會(huì)加總是一個(gè)十分棘手的難題,涉及如何從分散而多樣性的個(gè)體偏好中提煉出“集體意志”。采取建立在某種特定原則基礎(chǔ)上的規(guī)范性排序方案,不但在實(shí)踐中難以達(dá)成一致,而且可能在對(duì)齊系統(tǒng)中引發(fā)原則性沖突。正因如此,人工智能對(duì)齊不但可能遭到“技術(shù)失敗”(technical failure),還可能面臨“哲學(xué)失敗”(philosophical failure)——前者反映工程能力不足,后者則源自人類缺乏價(jià)值共識(shí)。[49]

委托人問題還有一個(gè)重要的方面,那就是當(dāng)委托人對(duì)其目標(biāo)缺乏明確理解或表達(dá)不清時(shí),人工智能系統(tǒng)可能反過來塑造、定義,甚至操控委托人的偏好、利益和行為。這種“反向?qū)R”風(fēng)險(xiǎn)在傳統(tǒng)“委托-代理”關(guān)系中不乏例子,[50]而人工智能則可能顯著放大這一風(fēng)險(xiǎn)。隨著語言模型和情感計(jì)算技術(shù)的不斷進(jìn)步,人工智能能夠通過語言交互、情緒引導(dǎo)和認(rèn)知誘導(dǎo)等方式影響人類的所思所想。[51]在這種情況下,委托關(guān)系的主動(dòng)性和控制權(quán)可能發(fā)生轉(zhuǎn)移,演變?yōu)橐环N“傀儡-操控者”關(guān)系。

人工智能秩序?qū)R的國(guó)際政治概念框架

“委托人問題”表明,人工智能的秩序?qū)R必然包含兩個(gè)階段:第一階段涉及人類內(nèi)部就全球秩序基本原則和目標(biāo)進(jìn)行對(duì)齊,以國(guó)家間的對(duì)齊為主,涵蓋其他跨國(guó)行為體,通過政治協(xié)商達(dá)成秩序內(nèi)容的公約數(shù);第二階段就對(duì)齊目標(biāo)進(jìn)行操作化,通過技術(shù)確保全球各地開發(fā)和部署的人工智能系統(tǒng)與秩序目標(biāo)對(duì)齊。兩階段對(duì)齊意味著,人工智能秩序?qū)R的“目標(biāo)函數(shù)”不僅來自技術(shù)、理論和哲思,更需要人類的廣泛溝通和充分協(xié)商加以確立。第一階段的對(duì)齊雖然發(fā)生在人類內(nèi)部,卻不應(yīng)被視為外生于人工智能對(duì)齊任務(wù)。這意味著人工智能對(duì)齊不僅面臨技術(shù)性挑戰(zhàn),還涉及在利益分配和權(quán)力結(jié)構(gòu)基礎(chǔ)上,確立并明晰全球秩序的基礎(chǔ)性原則和目標(biāo)。

作為一種加總機(jī)制的政治過程。政治的本質(zhì)是解決相互沖突的利益如何協(xié)調(diào)共處的問題,可理解為一種對(duì)微觀層面偏好進(jìn)行加總以實(shí)現(xiàn)宏觀層面秩序的機(jī)制和過程。作為加總機(jī)制,政治不同于市場(chǎng)和暴力。市場(chǎng)是人類文明的重要發(fā)明之一,通過獨(dú)立個(gè)體追求效用最大化的微觀行為,實(shí)現(xiàn)宏觀層面資源最優(yōu)配置。市場(chǎng)秩序依賴價(jià)格機(jī)制傳遞信息,個(gè)體行為根據(jù)價(jià)格變化進(jìn)行決策調(diào)整,形成分散化交換而非集中化控制的秩序。市場(chǎng)的前提是能夠?qū)€(gè)體效用進(jìn)行排序,在此假定上方能促成基于效用的資源競(jìng)爭(zhēng)和交換。[52]暴力作為另一種加總機(jī)制則完全依賴脅迫和強(qiáng)制,而非自愿交換。暴力通過對(duì)個(gè)體或群體進(jìn)行直接威脅,迫使其順從暴力施加者的意圖,將暴力優(yōu)勝方的目標(biāo)、利益和意圖貫徹下去,實(shí)現(xiàn)基于暴力分配的階序?qū)R,建立由暴力維系的集中化秩序。

政治的作用在于避免暴力掠奪的風(fēng)險(xiǎn),同時(shí)也在于解決通過市場(chǎng)交換無法進(jìn)行加總的問題。作為加總機(jī)制,政治的獨(dú)特之處在于通過協(xié)商、妥協(xié)和共識(shí)來達(dá)成秩序。通過這些手段,政治在不同利益和價(jià)值之間尋找折衷和共識(shí),從而構(gòu)建社會(huì)的集體意圖。[53]通過政治參與、政治過程和政治制度,協(xié)商和妥協(xié)在處理不同偏好、利益和價(jià)值之間的差異與沖突時(shí),完成某種加總以促使總體安排框架和大規(guī)模秩序得以建立。這種機(jī)制不同于市場(chǎng),國(guó)際政治還是國(guó)內(nèi)政治都必須通過某種集體行動(dòng)的安排來協(xié)調(diào)沖突利益。無論是基于等級(jí)權(quán)威還是水平合作,政治都要對(duì)利益與目標(biāo)的差異性和沖突性進(jìn)行人為協(xié)調(diào)。政治和暴力之間也具有本質(zhì)區(qū)別,盡管權(quán)力競(jìng)爭(zhēng)在政治過程中占有重要地位,但權(quán)力不等于暴力。政治的形式是沖突與合作的結(jié)合,權(quán)力的運(yùn)用往往通過沖突來達(dá)成合作。但在這一過程中,政治的核心是協(xié)商與妥協(xié),權(quán)力是達(dá)成目標(biāo)的工具和策略。實(shí)際上,權(quán)力的作用也正是在協(xié)商和妥協(xié)中才得以顯現(xiàn)。[54]暴力并非權(quán)力產(chǎn)生和運(yùn)行的充分或必要條件;相反,暴力總是在權(quán)威和妥協(xié)缺失以及政治秩序崩塌時(shí)變得普遍和極端。

值得強(qiáng)調(diào)的是,政治作為一種加總過程并非完美,通過政治過程進(jìn)行人工智能秩序?qū)R也面臨諸多挑戰(zhàn)。政治過程雖然離不開規(guī)范性價(jià)值的引導(dǎo)和彌合,但政治加總的結(jié)果是經(jīng)驗(yàn)性而非規(guī)范性的。這意味著政治達(dá)成的妥協(xié)中總是蘊(yùn)含了改變現(xiàn)狀的沖動(dòng),這可能使得人工智能系統(tǒng)缺乏穩(wěn)定的對(duì)齊目標(biāo)。此外,政治加總本身并不能保證達(dá)成任何價(jià)值或效率標(biāo)準(zhǔn)下的理想結(jié)果。在缺乏規(guī)范框架的約束時(shí),政治加總結(jié)果可能變成由權(quán)力實(shí)現(xiàn)的利益,從而加劇不平等和不公正。[55]尤其在國(guó)際政治中,缺乏公認(rèn)的權(quán)威作為加總結(jié)果的最終裁判和調(diào)節(jié)人,政治容易陷入對(duì)權(quán)力的渴望和無節(jié)制的追求。此外,不同政治制度在排序和加總方式上具有顯著差異,這可能導(dǎo)致制度間的沖突。沖突作為尋求妥協(xié)的策略之一,也可能會(huì)按照自身的邏輯發(fā)展到失控狀態(tài),導(dǎo)致政治加總的失敗。[56]

關(guān)于人工智能是否會(huì)導(dǎo)致主權(quán)國(guó)家的削弱或消亡的討論已然出現(xiàn),但不可否認(rèn)的是,世界依然是一個(gè)主權(quán)國(guó)家體系。就人工智能對(duì)齊而言,主權(quán)國(guó)家體系一方面意味著全球秩序的政治協(xié)商可以延續(xù)國(guó)際政治長(zhǎng)期實(shí)踐,已有機(jī)制和慣例為這一過程提供了良好的基礎(chǔ)。[57]另一方面,民族國(guó)家體系意味著全球利益和目標(biāo)的分割,局部利益和目標(biāo)的優(yōu)先性根深蒂固。相較于人工智能與全球秩序整體目標(biāo)的對(duì)齊,人工智能對(duì)齊國(guó)家自身的目標(biāo)、利益、價(jià)值和原則,既具有優(yōu)先地位,也更具可行性。如果不考慮人工智能風(fēng)險(xiǎn)的全球性和整體性,也不顧及全球地緣政治的現(xiàn)狀和邏輯,人工智能的局部對(duì)齊可能成為一種自下而上、從局部到整體、從國(guó)家到全球的有效過程和機(jī)制。但在現(xiàn)實(shí)中,人工智能在局部的完美對(duì)齊可能對(duì)全球基本秩序和人類文明帶來風(fēng)險(xiǎn)。

地緣政治競(jìng)爭(zhēng)與局部對(duì)齊風(fēng)險(xiǎn)。技術(shù)始終是大國(guó)競(jìng)爭(zhēng)的工具和對(duì)象。當(dāng)前,國(guó)際關(guān)系學(xué)界對(duì)人工智能加劇全球地緣政治競(jìng)爭(zhēng)風(fēng)險(xiǎn)的問題極為關(guān)切,并希望借鑒過去核技術(shù)的全球風(fēng)險(xiǎn)管控經(jīng)驗(yàn),為這一新興技術(shù)的風(fēng)險(xiǎn)管控提供參考。事實(shí)上,核技術(shù)能夠得到有效管控,主要依賴于多層次、多維度的人類內(nèi)部的對(duì)齊,包括核恐怖的情感對(duì)齊、對(duì)核技術(shù)認(rèn)知的對(duì)齊,以及通過履行核不擴(kuò)散原則等形式實(shí)現(xiàn)的制度對(duì)齊。這一案例之所以成功,部分原因是核技術(shù)本身缺乏內(nèi)在目的,且具備能夠被防止大規(guī)模擴(kuò)散的高技術(shù)門檻和高成本特征,且核技術(shù)演化速度較慢。人工智能與核技術(shù)存在顯著差異,使得表層行為的管控變得更加困難,也決定了其與地緣政治競(jìng)爭(zhēng)之間具有更加復(fù)雜的關(guān)系。

在地緣政治的影響下,人工智能的地方和局部對(duì)齊本身就可能構(gòu)成嚴(yán)重的系統(tǒng)性風(fēng)險(xiǎn)?,F(xiàn)有人工智能對(duì)齊研究聚焦“錯(cuò)位風(fēng)險(xiǎn)”,但在缺乏一個(gè)全球?qū)用婊緦?duì)齊框架的情況下,人工智能在某一局部或國(guó)家內(nèi)實(shí)現(xiàn)了所謂“完美對(duì)齊”,卻可能帶來更具災(zāi)難性的后果。這一現(xiàn)象可被稱為“局部完美對(duì)齊風(fēng)險(xiǎn)”(risk of locally perfect alignment)。這種風(fēng)險(xiǎn)的危險(xiǎn)性和緊迫性在于,人工智能系統(tǒng)具備將對(duì)抗行為以指數(shù)級(jí)方式放大的能力,尤其體現(xiàn)在對(duì)抗的全面性及其后果的嚴(yán)重性。

人工智能的高效對(duì)于地緣競(jìng)爭(zhēng)而言可能是一場(chǎng)噩夢(mèng)。這可以對(duì)比歷史上采用“均勢(shì)”來維系秩序以避免災(zāi)難的國(guó)際關(guān)系實(shí)踐。“均勢(shì)”之所以有效,恰恰不在于它是精確計(jì)算的狀態(tài),而是一種模糊的心理狀態(tài),是在威懾和不確定性之間尋求微妙平衡的產(chǎn)物。正是因?yàn)橛扇祟惤M成的國(guó)家具有有限理性,行為緩慢且對(duì)優(yōu)勢(shì)的判斷具有模糊性,才在一定程度上避免了大規(guī)模沖突的爆發(fā)。人工智能系統(tǒng)恰好相反,具備精確計(jì)算、極高速度和大規(guī)模部署能力,且在目標(biāo)函數(shù)驅(qū)動(dòng)下缺乏人類式的模糊與遲疑。這意味著,一旦局部人工智能系統(tǒng)被賦予競(jìng)爭(zhēng)性目標(biāo),其能力在相互對(duì)抗中被無節(jié)制釋放出來,其反應(yīng)速度將極大超越人類外交和軍事系統(tǒng)的適應(yīng)能力,可迅速將地區(qū)沖突升級(jí)為全球性的災(zāi)難。在此種情形下,人工智能之間的對(duì)抗將不再是人類熟悉的“代理人戰(zhàn)爭(zhēng)”,而更像是一種陌生而恐怖的“超級(jí)代理人戰(zhàn)爭(zhēng)”。

人類在處理利益沖突時(shí),會(huì)在道德規(guī)范、人道考量、尊重基本秩序等多重約束下進(jìn)行權(quán)衡,即便是在國(guó)家層面的利益最大化策略之中,也往往受到制度和規(guī)范的限制,如避免公然使用武力和維持國(guó)際共存秩序等。[58]但人工智能系統(tǒng)本質(zhì)上是目標(biāo)函數(shù)驅(qū)動(dòng)的最優(yōu)化機(jī)制,一旦目標(biāo)設(shè)定明確且對(duì)齊充分,其行為將不受傳統(tǒng)規(guī)范和含糊約束的限制。如果人工智能系統(tǒng)被訓(xùn)練和部署以實(shí)現(xiàn)某一特定國(guó)家或地區(qū)的利益目標(biāo),并與其他地區(qū)或國(guó)家的目標(biāo)對(duì)齊相沖突,這些系統(tǒng)可能以極高的效率和超越人類理性約束的方式,將局部目標(biāo)最大化地推進(jìn),并“掃清”所有阻礙其達(dá)成目標(biāo)的行為和實(shí)體。

“局部完美對(duì)齊”對(duì)全球秩序的深層風(fēng)險(xiǎn),還在于對(duì)國(guó)際信任機(jī)制產(chǎn)生破壞性影響。任何秩序的維系都建立在一定程度的信任基礎(chǔ)上,這種信任來自主體間的認(rèn)同與共識(shí),即相信體系內(nèi)的大多數(shù)行為體在大多數(shù)情境中都將選擇遵守秩序,無論這種選擇是出于理性計(jì)算還是道德認(rèn)同。[59]因此,即使在缺乏嚴(yán)格監(jiān)督和強(qiáng)制懲罰機(jī)制的情況下,秩序依然可以得到大致維系。但是,在國(guó)際關(guān)系中,這種信任始終處于結(jié)構(gòu)性張力之中,“遵守秩序的意愿”與“打破秩序的能力”之間的矛盾從未徹底解決。當(dāng)人工智能被用于地緣政治競(jìng)爭(zhēng),與特定國(guó)家或地區(qū)的目標(biāo)、利益、價(jià)值進(jìn)行完美對(duì)齊,這種張力將被放大,局部目標(biāo)之間的差異性和不兼容性將被清晰地呈現(xiàn)出來,體系中主體間的信任將難以為繼。

局部完美對(duì)齊的風(fēng)險(xiǎn)警示我們,人工智能對(duì)齊的目標(biāo)不應(yīng)限于地方性秩序,而必須指向全球性秩序。人工智能時(shí)代的“秩序割據(jù)”將導(dǎo)致系統(tǒng)間的深度對(duì)立和大規(guī)?;靵y,而非合作性的多元共存。因此,人工智能系統(tǒng)的對(duì)齊必須超越對(duì)單一目標(biāo)的精確最優(yōu)化,回歸對(duì)底層秩序原則的認(rèn)同和嵌入。在全球治理中,秩序往往建立在對(duì)最低限度原則的共識(shí)基礎(chǔ)上,如最小傷害、風(fēng)險(xiǎn)控制性與可逆性,而非對(duì)正面價(jià)值的完美一致。實(shí)際上,全球秩序并非靜態(tài)而明確的,而是始終具有模糊性和處于動(dòng)態(tài)構(gòu)建之中。

漫長(zhǎng)的國(guó)際關(guān)系史表明,全球秩序的形成和維持需要在現(xiàn)實(shí)與理想、實(shí)證與規(guī)范之間尋求一種動(dòng)態(tài)平衡。單純依賴地緣政治現(xiàn)實(shí)構(gòu)建的秩序缺乏普遍合法性,因此不可能保持相對(duì)穩(wěn)定性;而完全無視地緣政治現(xiàn)實(shí)、過度理想化的秩序構(gòu)想則常常在實(shí)踐中遭遇挫敗,難以達(dá)成妥協(xié)和對(duì)現(xiàn)狀的維持。因此,人工智能秩序?qū)R也應(yīng)在“對(duì)齊”和“不對(duì)齊”之間,尋求深層、普遍、可協(xié)商的政治基礎(chǔ)。這種基礎(chǔ)不是由算法設(shè)定的目標(biāo)函數(shù),而是通過政治協(xié)商和妥協(xié)建立的共識(shí)規(guī)則。只有嵌入這一政治性邏輯,人工智能系統(tǒng)才能規(guī)避“局部完美對(duì)齊”所帶來的災(zāi)難性風(fēng)險(xiǎn),邁向一種更加包容、可持續(xù)的全球秩序。

結(jié)語

人工智能對(duì)齊領(lǐng)域已經(jīng)逐漸從“直接對(duì)齊”擴(kuò)展至“社會(huì)對(duì)齊”,即從一個(gè)“指令是否被正確執(zhí)行”的技術(shù)工程命題發(fā)展至一個(gè)關(guān)涉社會(huì)價(jià)值、正義和穩(wěn)定的命題。本文在此基礎(chǔ)上繼續(xù)拓展,提出“秩序?qū)R”,將人工智能對(duì)齊問題視為關(guān)系國(guó)際結(jié)構(gòu)、全球秩序和人類未來的重大議題,呼吁加深理解人工智能如何深度介入并重塑我們共處的世界。

人工智能不僅是一項(xiàng)技術(shù),更可能是一個(gè)超級(jí)代理人,在一個(gè)價(jià)值多元、利益沖突、信任脆弱的世界中進(jìn)行決策和采取行動(dòng)。從“委托-代理”理論來看,人工智能系統(tǒng)的“委托人”并非明確和統(tǒng)一的主體,而是一個(gè)處于分裂和博弈中的國(guó)際社會(huì)。因此,秩序?qū)R是一個(gè)“二階段對(duì)齊模型”。人工智能系統(tǒng)注定將在跨越國(guó)界、打破物理限制的空間中運(yùn)行。如果它們對(duì)齊的是封閉性的國(guó)家利益或單一性價(jià)值觀,而非具備包容性、正義性與可持續(xù)性的秩序理念,所帶來的將不是進(jìn)步而是失控。單一國(guó)家或局部群體的“完美對(duì)齊”并不能帶來全球安全,反而可能放大矛盾、加劇沖突,構(gòu)成“局部對(duì)齊的系統(tǒng)性風(fēng)險(xiǎn)”。面對(duì)這樣的現(xiàn)實(shí),對(duì)齊不能止步于對(duì)具體目標(biāo)的優(yōu)化,而必須納入全球秩序的基本原則和合作精神。換言之,秩序?qū)R的任務(wù),不是尋找一套普適目標(biāo)讓人工智能去追隨,而是構(gòu)建一套能在差異中維持合作、在沖突中促進(jìn)理解、在不確定中保持韌性的規(guī)范框架。

人工智能對(duì)齊是一項(xiàng)以全球秩序?yàn)閷?dǎo)向的政治議題,也是一項(xiàng)以共同命運(yùn)為前提的人文實(shí)踐。它不僅要求技術(shù)上的努力和治理上的合作,更需要一種深切的理解,即我們是在一個(gè)彼此差異但又共享未來的世界中,追求共同生存和共同發(fā)展的可能性。對(duì)齊問題的真正挑戰(zhàn),在于如何讓人工智能系統(tǒng)不僅聰明,而且值得信賴;不僅高效,而且能夠守護(hù)人類最基本的共同利益和共同精神。

注釋

[1]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019; I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).

[2]N. Bostrom, Superintelligence: Paths, Dangers, Strategies, Oxford University Press, 2014; A. Dafoe, "AI Governance: A Research Agenda," Centre for the Governance of AI, 2020.

[3]J. Leike et al., "Scalable Agent Alignment via Reward Modeling: A Research Direction," arXiv preprint, 2018, arXiv:1811.07871; P. F. Christiano, J. Leike, T. B. Brown et al., "Deep Reinforcement Learning from Human Preferences," Advances in Neural Information Processing Systems (NeurIPS), 2017, 30.

[4]烏爾里希·貝克:《風(fēng)險(xiǎn)社會(huì):新的現(xiàn)代性之路》,張文杰、何博聞譯,南京:譯林出版社,2018年。

[5]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3); G. Allison, Destined for War: Can America and China Escape Thucydides's Trap? Boston: Houghton Mifflin Harcourt, 2017.

[6]A. Nadibaidze and N. Miotto, "The Impact of AI on Strategic Stability is What States Make of It: Comparing US and Russian Discourses," Journal for Peace and Nuclear Disarmament, 2023, 6(1).

[7]L. Floridi et al., "AI4People—An Ethical Framework for a Good AI Society: Opportunities, Risks, Principles, and Recommendations," Minds and Machines, 2018, 28(4).

[8]J. Habermas, Between Facts and Norms: Contributions to a Discourse Theory of Law and Democracy, Cambridge: MIT Press, 1996; R. A. Dahl, Democracy and Its Critics, New Haven: Yale University Press, 1989.

[9]J. Wang et al., "Navigating Geopolitics in AI Governance," OXGS Research Report, 2024, DOI: 10.13140/RG.2.2.33742.06722.

[10]L. Floridi, The 4th Revolution: How the Infosphere Is Reshaping Human Reality, Oxford University Press, 2014.

[11]S. Cave and K. Dihal, S. Dillon, AI Narratives: A History of Imaginative Thinking About Intelligent Machines, New York: Oxford University Press, 2020.

[12][17][43]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).

[13]D. Hendrycks et al., “An Overview of Catastrophic AI Risks,“ arXiv preprint, 2023, arXiv:2306.12001.

[14]B. Christian, The Alignment Problem: Machine Learning and Human Values, New York: W. W. Norton & Company, 2020.

[15]J. Leike et al., "Scalable Agent Alignment via Reward Modeling: A Research Direction," arXiv preprint, 2018, arXiv:1811.07871.

[16]B. L. Hou, “Foundational Moral Values for AI Alignment,“ arXiv preprint, 2023, arXiv:2311.17017v1.

[18][27][36]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019.

[19]T. Arnold et al., "Value Alignment or Misalignment: What Will Keep Systems Accountable?" Proceedings of the AAAI Workshop on AI, Ethics, and Society, 2017, https://hrilab.tufts.edu/publications/arnoldetal17aiethics.pdf.

[20]R. Chang, Incommensurability, Incomparability, and Practical Reason, Cambridge: Harvard University Press, 1997; A. Sen, The Idea of Justice, Cambridge: Harvard University Press, 2009.

[21]H. Bull, The Anarchical Society: A Study of Order in World Politics, New York: Columbia University Press, 1977; 戴維·A.萊克:《國(guó)際關(guān)系中的等級(jí)制》,高婉妮譯,上海人民出版社,2013年。

[22]E. Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action, Cambridge University Press, 1990; A.-M. Slaughter, A New World Order, Princeton University Press, 2004.

[23]D. S. Grewal, Network Power: The Social Dynamics of Globalization, New Haven: Yale University Press, 2020.

[24]S. Cave and S. S. ÓhÉigeartaigh, "An AI Race for Strategic Advantage: Rhetoric and Risks," Proceedings of the 2018 AAAI/ACM Conference on AI, Ethics, and Society, New Orleans, December 2018, https://doi.org/10.1145/3278721.3278780.

[25]G. J. Ikenberry, After Victory: Institutions, Strategic Restraint, and the Rebuilding of Order after Major Wars, Princeton University Press, 2001.

[26]亞歷山大·溫特:《國(guó)際政治的社會(huì)理論》,秦亞青譯,上海人民出版社,2008年。

[28]L. Floridi et al., The Ethics of Artificial Intelligence: Principles, Challenges, and Opportunities, New York: Oxford University Press, 2023.

[29]J. Rawls, A Theory of Justice, Cambridge, MA: Harvard University Press, 1971; E. Ostrom, Governing the Commons: The Evolution of Institutions for Collective Action, Cambridge University Press, 1990.

[30]A. Dafoe, AI Governance: A Research Agenda, Oxford: Centre for the Governance of AI, 2020.

[31]J. Schuett et al., “Defining the Scope of AI Regulations,“ Law, Innovation & Technology, 2023, 20(1).

[32][58]H. Bull, The Anarchical Society: A Study of Order in World Politics, New York: Columbia University Press, 1977.

[33]D. G. Hawkins et al., Delegation and Agency in International Organizations, Cambridge University Press, 2006.

[34]M. C. Jensen and W. H. Meckling, "Theory of the Firm: Managerial Behavior, Agency Costs and Ownership Structure," Journal of Financial Economics, 1976, 3(4); K. M. Eisenhardt, "Agency Theory: An Assessment and Review," Academy of Management Review, 1989, 14(1).

[35]S. Legg and M. Hutter, "Universal Intelligence: A Definition of Machine Intelligence," Minds and Machines, 2007, 17(4).

[37]A. Korinek and E. Yudkowsky, "The Alignment Problem from a Deep Philosophical Perspective," arXiv Prepreint, 2025, arXiv:2209.00626v7.

[38]F. Doshi-Velez and B. Kim, "Towards a Rigorous Science of Interpretable Machine Learning," arXiv preprint, 2017, arXiv:1702.08608.

[39]Z. C. Lipton, "The Mythos of Model Interpretability," Communications of the ACM, 2018, 16(3).

[40]R. Jervis, The Meaning of the Nuclear Revolution: Statecraft and the Prospect of Armageddon, Ithaca, NY: Cornell University Press, 1989.

[41]S. Russell, Human Compatible: Artificial Intelligence and the Problem of Control, New York: Viking, 2019; J. Clark and G. Hadfield, "Regulatory Markets for AI Safety," arXiv preprint, 2019, arXiv:1909.12863.

[42]M. C. Jensen and W. H. Meckling, "Theory of the Firm: Managerial Behavior, Agency Costs and Ownership Structure," Journal of Financial Economics, 1976, 3(4).

[44]H. Shen et al., "Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions," arXiv preprint, 2024, arXiv:2406.09264.

[45]R. Binns et al., "'It's Reducing a Human Being to a Percentage': Perceptions of Justice in Algorithmic Decisions," CHI '18: Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, Paper No.: 377, pp. 1–14, https://doi.org/10.1145/3173574.3173951.

[46]G. Irving et al., "AI Safety via Debate," arXiv preprint, 2018, arXiv:1805.00899; J. Leike et al., "Scalable Agent Alignment via Reward Modeling," arXiv preprint, 2018, arXiv:1811.07871.

[47]D. Misnawati et al., "The Impact of Artificial Intelligence on Human Interaction: Redefining Communication Norms," The Journal of Academic Science, 2025, 2(1).

[48]L. Floridi, The Fourth Revolution: How the Infosphere is Reshaping Human Reality, Oxford University Press, 2014.

[49]E. Yudkowsky, "Artificial Intelligence as a Positive and Negative Factor in Global Risk," in Global Catastrophic Risks, N. Bostrom and M. ?irkovi?(eds.), Oxford University Press, 2008.

[50]M. Bovens, The Quest for Responsibility: Accountability and Citizenship in Complex Organisations, Cambridge University Press, 1998.

[51]S. M. Breum et al., "The Persuasive Power of Large Language Models," Proceedings of the Eighteenth International AAAI Conference on Web and Social Media, 2024, file:///Users/xunpang/Downloads/31304-Article%20Text-35360-1-2-20240528.pdf.

[52]F. A. Hayek, "The Use of Knowledge in Society," American Economic Review, 1945, 35(4).

[53]N. Bobbio, The Future of Democracy: A Defence of the Rules of the Game, Minneapolis: University of Minnesota Press, 1989.

[54]R. A. Dahl, Democracy and Its Critics, New Haven: Yale University Press, 1989.

[55]J. Rawls, A Theory of Justice, Cambridge, MA: Harvard University Press, 1971.

[56]F. W. Scharpf, Games Real Actors Play: Actor-Centered Institutionalism in Policy Research, Boulder: Westview Press, 1997.

[57]J. S. Nye, The Future of Power, New York: Public Affairs, 2011.

[59]A. Giddens, The Constitution of Society: Outline of the Theory of Structuration, Berkeley: University of California Press, 1984; M. Zürn, A Theory of Global Governance: Authority, Legitimacy, and Contestation, Oxford University Press, 2018.

Global Order and AI Alignment

—A Theoretical Perspective of International Relations on Governing Technological Risk

Pang Xun

Abstract: From the theoretical perspective of International Relations, AI alignment is not only a core issue in the governance of technological risk but also a critical task for maintaining the stability of future global order. In recent years, research on AI alignment has gradually evolved from "direct alignment," which assumes the independence of individual goals, to a more structural concept of "social alignment," incorporating macro-level concerns such as preference externalities and collective value ordering. Going even deeper, AI alignment inevitably involves value conflicts, institutional coordination, and geopolitical tensions—issues that must be examined within the broader framework of global politics to ensure that the functions and values of a human-centered global order are preserved. This calls for what this article conceptualized "order alignment". AI is increasingly entering into novel and complex principal-agent relationships with humanity, which not only reshape the operational logic of existing global order but may also become embedded within its very structure. International Relations theory offers conceptual frameworks and analytical tools to identify and address the "principal problem," highlighting the structural and political nature of alignment. Only through political compromise and adaptive governance can we prevent AI from becoming a mere instrument of geopolitical rivalry and instead unlock its potential to benefit humanity.

Keywords: artificial intelligence, order, alignment, principal-agent, misalignment risk

責(zé) 編∕包 鈺 美 編∕周群英

[責(zé)任編輯:包鈺]