AI Safety Index 2025:行业能力飞速提升,安全治理严重滞后
2025-12-11 21:28

非营利组织生命未来研究所(Future of Life Institute,FLI)近日发布了《AI Safety Index (Winter 2025)》,对全球8家领先AI公司(Anthropic、OpenAI、Google DeepMind、xAI、Z.ai、Meta、DeepSeek、Alibaba Cloud)的安全实践进行了独立评估。

本次评估涵盖风险评估、当前危害、安全框架、存在性安全、治理与问责、信息共享6大领域,共35项指标。报告结果显示,Anthropic、OpenAI、Google DeepMind位居前三,但没有任何一家公司的得分达到 B 级或以上;最高评分的公司也仅为 C+,显示出行业整体的安全实践明显滞后于能力发展速度。

报告指出,表现最优者(Anthropic、OpenAI与Google DeepMind)与其他受评公司(Z.ai、xAI、Meta、Alibaba Cloud、DeepSeek)之间依然存在明显差距。差距主要体现在风险评估、安全框架和信息共享领域,其原因在于披露有限、缺乏系统性安全流程的充分证据,以及稳健评估实践采用程度不一致。

尽管各公司已公开作出安全承诺,但其实践仍落后于新兴全球标准。许多公司在一定程度上符合诸如欧盟《通用人工智能行为准则》等框架的要求,但在实施的深度、具体性与质量方面差异显著,尚未达到这些框架所要求的严谨性、可衡量性与透明化水平。

风险评估(Risk Assessment)方面,Anthropic、OpenAI、Google DeepMind继续保持领先。报告指出,尽管更多公司开始对前沿 AI 风险进行内部与外部评估,但整体深度与独立性不足,具体表现为:风险评估范围较窄,例如未覆盖气候风险等新兴领域;尚无公司开展“Human Uplift Trials”(人类提升试验,用于测量 AI 是否会提高用户实施危害行为的能力);未有公司量化 AGI 失控等极端情景的概率;外部审查的独立性仍不充分。

当前危害(Current Harms)方面,Anthropic在该维度得分最高,而xAI表现最弱。整体来看,各公司在该领域得分普遍偏低,频繁的安全漏洞、薄弱的稳健性以及对严重危害的控制不足是共同问题。在真实性、公平性、有害内容生成等可信度测试中,各公司表现均不理想。此外,所有模型默认使用用户交互数据进行训练,反映出各企业对隐私原则的执行不够严格。值得注意的是,中国公司在内容水印标注方面因政策要求而表现较优。

安全框架(Safety Frameworks)方面,Anthropic、Google DeepMind、Meta、OpenAI和xAI已发布安全框架,其中Anthropic、Google DeepMind和OpenAI提供的结构化程度最高,概述了风险领域、定性阈值和缓解措施。另一方面,DeepSeek、Z.ai和Alibaba Cloud尚未发布任何形式的安全框架。

存在性安全(Existential Safety)方面,该维度是所有公司表现最弱的领域。尽管各公司正在积极推进通用人工智能(AGI)和超级智能的研发,但没有任何企业提出可信的计划来防止潜在的大规模滥用或失控风险。报告指出,这类最具破坏性的风险在当前仍未得到有效应对,是行业最严重的薄弱点之一。

总体来看,AI 技术正在快速逼近更高水平的通用智能,而行业在安全治理方面的准备却远远不足。唯有在全球范围内同步提升安全治理标准与监管要求,才能在技术加速发展的背景下确保风险可控。

作者:Qinger