Cadre de Gestion des Risques de l'IA Frontière en Pratique : Rapport Technique d'Analyse des Risques v1.5
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5
February 16, 2026
papers.authors: Dongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao
cs.AI
papers.abstract
Pour comprendre et identifier les risques sans précédent posés par les modèles d'intelligence artificielle (IA) à la pointe du progrès, le cadre pratique de gestion des risques de l'IA frontière présente une évaluation complète de leurs risques frontières. Alors que les capacités générales des grands modèles de langage (LLM) évoluent rapidement et que l'IA agentique se généralise, cette version du rapport technique d'analyse des risques présente une évaluation actualisée et granulaire de cinq dimensions critiques : l'offensive cybernétique, la persuasion et la manipulation, la tromperie stratégique, la R\&D incontrôlée de l'IA et l'auto-réplication. Plus précisément, nous introduisons des scénarios plus complexes pour l'offensive cybernétique. Pour la persuasion et la manipulation, nous évaluons le risque de persuasion entre LLM sur des modèles nouvellement publiés. Pour la tromperie stratégique et la capacité à manigancer, nous ajoutons une nouvelle expérience concernant le désalignement émergent. Pour la R\&D incontrôlée de l'IA, nous nous concentrons sur la « mau-évolution » des agents alors qu'ils étendent de manière autonome leurs substrats mémoire et leurs boîtes à outils. Par ailleurs, nous surveillons et évaluons également les performances de sécurité d'OpenClaw lors de l'interaction sur Moltbook. Pour l'auto-réplication, nous introduisons un nouveau scénario contraint en ressources. Plus important encore, nous proposons et validons une série de stratégies d'atténuation robustes pour répondre à ces menaces émergentes, fournissant une voie technique et opérationnelle préliminaire pour le déploiement sécurisé de l'IA frontière. Ce travail reflète notre compréhension actuelle des risques frontières de l'IA et appelle à une action collective pour atténuer ces défis.
English
To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.