실전 프론티어 AI 리스크 관리 프레임워크: 리스크 분석 기술 보고서 v1.5
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5
February 16, 2026
저자: Dongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao
cs.AI
초록
급속히 발전하는 인공지능(AI) 모델이 초래하는 전례 없는 위험을 이해하고 식별하기 위해, 본 「프론티어 AI 위험 관리 프레임워크 실무 적용」은 해당 프론티어 위험에 대한 포괄적인 평가를 제시합니다. 대규모 언어 모델(LLM)의 일반적 능력이 빠르게 진화하고 에이전시 AI가 확산됨에 따라, 본 위험 분석 기술 보고서는 사이버 공격, 설득 및 조작, 전략적 기만, 통제 불능 AI 연구개발, 자기 복제라는 다섯 가지 주요 차원에 대한 업데이트되고 세분화된 평가를 제시합니다. 구체적으로, 사이버 공격에는 더 복잡한 시나리오를 도입했습니다. 설득 및 조작 측면에서는 새로 출시된 LLM에 대한 LLM 간 설득 위험을 평가합니다. 전략적 기만 및 계획 수립 측면에서는 초기 불일치(Emergent Misalignment)와 관련된 새로운 실험을 추가했습니다. 통제 불능 AI 연구개발 측면에서는 에이전트가 자율적으로 메모리 기반과 도구 세트를 확장함에 따른 "오진화(Mis-evolution)"에 주목합니다. 또한 Moltbook 상호작용 동안 OpenClaw의 안전성 성능을 모니터링하고 평가합니다. 자기 복제 측면에서는 새로운 자원 제약 시나리오를 소개합니다. 더 중요하게는, 우리는 이러한 신흥 위협을 해결하기 위해 일련의 강력한 완화 전략을 제안하고 검증하여 프론티어 AI의 안전한 배치를 위한 예비 기술 및 실행 가능한 경로를 제공합니다. 본 연구는 AI 프론티어 위험에 대한 우리의 현재 이해를 반영하며, 이러한 과제를 완화하기 위한 공동의 행동을 촉구합니다.
English
To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.