実践的フロンティアAIリスク管理フレームワーク:リスク分析技術報告書 v1.5
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5
February 16, 2026
著者: Dongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao
cs.AI
要旨
急速に進化する人工知能(AI)モデルがもたらす前例のないリスクを理解し特定するため、『フロンティアAIリスク管理フレームワーク実践編』は、そのフロンティアリスクに対する包括的評価を提示する。大規模言語モデル(LLM)の汎用的能力が急速に進化し、エージェント型AIが普及する中、本バージョンのリスク分析技術報告書では、5つの重要分野(サイバー攻撃、説得・操作、戦的欺瞠、制御不能なAI研究開発、自己複製)について更新され細分化された評価を提供する。具体的には、サイバー攻撃についてはより複雑なシナリオを導入し、説得・操作については新たにリリースされたLLMに対するLLM間説得のリスクを評価する。戦的欺瞠と陰謀については、創発的ミスアライメントに関する新たな実験を追加する。制御不能なAI研究開発については、エージェントが自律的に記憶基盤とツールセットを拡張する際の「誤った進化」に焦点を当てる。さらに、Moltbook上での相互作用におけるOpenClawの安全性性能も監視・評価する。自己複製については、新たなリソース制約シナリオを導入する。より重要なのは、これらの新興脅威に対処するための一連の堅牢な緩和戦略を提案・検証し、フロンティアAIの安全な展開に向けた予備的な技術的かつ実践可能な道筋を提供することである。本作業は、AIフロンティアリスクに関する我々の現時点での理解を反映し、これらの課題緩和に向けた集団的行動を促すものである。
English
To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.