7月25日,一份由杰弗里·辛顿(Geoffrey Hinton)、姚期智、本吉奥(Yoshua Bengio)等超过20位行业专家、学者共同签署的AI安全国际对话上海共识(以下简称“上海共识”)正式公开。该共识强调,人工智能系统能力已接近甚至可能超越人类,但人类尚未掌握有效的控制它的方法,因此,呼吁全球增加对AI安全的投入。
作为本次共识发起方之一,图灵奖得主、上海期智研究院的院长姚期智表示,“我们要达成共识并且标明风险切实存在,需要大家携手寻找解决方案。希望基于自身所处的位置,去促成一些国际安全相关合作,最后则是通过研讨会的形式去探讨在剧烈的变化过程中,发挥人工智能的优势,以帮助应对随之而来的挑战。”
“上海共识”中联名签署的专家普遍认为,人类正处于一个关键转折点——人工智能系统正迅速接近并可能超越人类智能水平。这些未来的系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动。这可能导致失控,即一个或多个通用人工智能系统脱离任何人的控制,从而带来灾难性风险。
“这项技术现在处于一个可以推翻人类文明与控制的阶段,对AI系统来说,它就像疾病大流行一样,可能在任何一处发生。”加州大学伯克利分校的计算机科学教授罗素说。
关于人工智能能力的具体体现,“上海共识”强调,已经有部分人工智能系统展现出削弱开发者安全与控制措施的能力与倾向,但相关证据主要是在实验场景中发现,人类还未掌握已知的方法,能够在更高级的通用人工智能超越人类智能水平后,仍能可靠地确保其对齐。
更直白地理解,即人类还没有掌握有效控制高级通用人工智能的办法。
罗素透露,目前已经观测到在人类明令禁止AI使用核武器的情况下,AI在感知到自身威胁的情况下,还是会擅自决定发射核武器,甚至会尝试通过不断复制来规避关机的行为。“它们通过预设程序将自身代码复制到不同终端,以此规避被关机。”罗素说。
2024年,辛顿、姚期智、罗素、本吉奥等专家共同签署的“北京共识”聚焦在对AI风险的划定、治理、评估、与合作几个部分,尤其是呼吁行业为AI的研发和应用戴上“紧箍咒”,避免相关技术被滥用,而“上海共识”则是聚焦通用人工智能系统的对齐与控制,提前规避安全风险。
“上海共识”认为,高级人工智能系统在部署时已对齐并处于人类控制之下,其必要性已获得关键决策者普遍认同,但是AI能力发展速度远超AI安全的研究和发展速度,因此在强化AI安全技术方面,除了推动全球协作以外,共识更是强调在必要时可自主行动。
为此,上海共识提出了三大建议:“要求前沿人工智能开发者提供安全保障” “通过加强国际协调,共同确立并恪守可验证的全球性行为红线” “投资基于设计的安全人工智能研究”。
其中,要求开发者提供安全保证提到,部署强大模型之前,除了要做好内部安全评估外,应委托第三方独立评估,同时对超越关键能力阈值的模型还要向监管部门、公众做好信息披露,并在上线之后有清晰的风险响应机制和立即关停系统的能力。
加强国际协调,共同确立并恪守可验证的全球性行为红线,核心是联动国际社会来确立具体、可操作、受全球认可的红线,核心则是呼吁建立一个统一的协调机构来推动红线落实和标准统一。
投资基于设计的安全人工智能研究,主要是强调短期内亟需建立可扩展的监管机制以应对人工智能的欺骗问题、提升模型对“越狱”等攻击手段的抵御能力、强化信息安保投入等,而长期则需要一个“基于设计的安全”的架构,而非问题出现后才被动应对。
作为“上海共识” 、“北京共识”的共同签名者之一,霍普金斯大学约翰分校、彭博人工智能协调与治理特聘教授吉莉恩·哈德菲尔将人工智能定义为一个全球公共品,需要跨国界合作,“人类本质上是一个协作物种,AI带来的治理挑战并非单一体制能够应对,尽管当前的科学合作会面临一些障碍,但是在这个关乎技术路线与治理方式的议题上,我们必须重识合作精神。”
“我越来越相信,人类终将找到解决方案。”姚期智说。
姚期智透露,18个月前举办第一次安全共识会议时,AGI强大的破坏力就已经显现,人类甚至难以阐明其失控机制,不过随着相关会议的推进,已经看到若干有关“设计安全”(Safe by design)的提案,这意味着实际上人类可以找到确保AI安全的可行路径。