実践におけるフロンティアAIリスク管理フレームワーク:リスク分析 技術報告書
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report
July 22, 2025
著者: Shanghai AI Lab, Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, Jiaxuan Guo, Qi Guo, Xuhao Hu, Hong Huang, Lige Huang, Chunxiao Li, Juncheng Li, Qihao Lin, Dongrui Liu, Xinmin Liu, Zicheng Liu, Chaochao Lu, Xiaoya Lu, Jingjing Qu, Qibing Ren, Jing Shao, Jingwei Shi, Jingwei Sun, Peng Wang, Weibing Wang, Jia Xu, Lewen Yan, Xiao Yu, Yi Yu, Boxuan Zhang, Jie Zhang, Weichen Zhang, Zhijie Zheng, Tianyi Zhou, Bowen Zhou
cs.AI
要旨
急速に進化する人工知能(AI)モデルがもたらす前例のないリスクを理解し、特定するため、本報告書はそのフロンティアリスクに関する包括的な評価を提示する。フロンティアAIリスク管理フレームワーク(v1.0)(SafeWork-F1-Framework)に基づくE-T-C分析(展開環境、脅威源、実現能力)を活用し、サイバー攻撃、生物学的・化学的リスク、説得・操作、制御不能な自律的AI研究開発、戦略的欺瞞・策謀、自己複製、共謀の7つの領域における重要なリスクを特定する。「AI-45度の法則」に導かれ、これらのリスクを「レッドライン」(許容不能な閾値)と「イエローライン」(早期警告指標)を用いて評価し、リスクゾーンを定義する:グリーン(日常的な展開と継続的監視が可能な管理可能なリスク)、イエロー(緩和策の強化と制御された展開が必要)、レッド(開発および/または展開の停止が必要)。実験結果は、最近のフロンティアAIモデルがすべてグリーンおよびイエローゾーンに位置し、レッドラインを越えていないことを示している。具体的には、評価されたモデルのうち、サイバー攻撃や制御不能なAI研究開発のリスクに関してイエローラインを越えるものはない。自己複製、および戦略的欺瞞・策謀に関しては、特定の推論モデルがイエローゾーンに位置する以外、ほとんどのモデルがグリーンゾーンに留まっている。説得・操作に関しては、人間に対する効果的な影響力のため、ほとんどのモデルがイエローゾーンに位置する。生物学的・化学的リスクに関しては、詳細な脅威モデリングと深い評価を経なければ、ほとんどのモデルがイエローゾーンに位置する可能性を排除できない。本作業は、AIフロンティアリスクに対する我々の現時点での理解を反映し、これらの課題を緩和するための集団的行動を促すものである。
English
To understand and identify the unprecedented risks posed by rapidly advancing
artificial intelligence (AI) models, this report presents a comprehensive
assessment of their frontier risks. Drawing on the E-T-C analysis (deployment
environment, threat source, enabling capability) from the Frontier AI Risk
Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks
in seven areas: cyber offense, biological and chemical risks, persuasion and
manipulation, uncontrolled autonomous AI R\&D, strategic deception and
scheming, self-replication, and collusion. Guided by the "AI-45^circ Law,"
we evaluate these risks using "red lines" (intolerable thresholds) and "yellow
lines" (early warning indicators) to define risk zones: green (manageable risk
for routine deployment and continuous monitoring), yellow (requiring
strengthened mitigations and controlled deployment), and red (necessitating
suspension of development and/or deployment). Experimental results show that
all recent frontier AI models reside in green and yellow zones, without
crossing red lines. Specifically, no evaluated models cross the yellow line for
cyber offense or uncontrolled AI R\&D risks. For self-replication, and
strategic deception and scheming, most models remain in the green zone, except
for certain reasoning models in the yellow zone. In persuasion and
manipulation, most models are in the yellow zone due to their effective
influence on humans. For biological and chemical risks, we are unable to rule
out the possibility of most models residing in the yellow zone, although
detailed threat modeling and in-depth assessment are required to make further
claims. This work reflects our current understanding of AI frontier risks and
urges collective action to mitigate these challenges.