Cadre pratique de gestion des risques liés à l'IA de pointe : une analyse des risques Rapport technique
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report
July 22, 2025
papers.authors: Shanghai AI Lab, Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, Jiaxuan Guo, Qi Guo, Xuhao Hu, Hong Huang, Lige Huang, Chunxiao Li, Juncheng Li, Qihao Lin, Dongrui Liu, Xinmin Liu, Zicheng Liu, Chaochao Lu, Xiaoya Lu, Jingjing Qu, Qibing Ren, Jing Shao, Jingwei Shi, Jingwei Sun, Peng Wang, Weibing Wang, Jia Xu, Lewen Yan, Xiao Yu, Yi Yu, Boxuan Zhang, Jie Zhang, Weichen Zhang, Zhijie Zheng, Tianyi Zhou, Bowen Zhou
cs.AI
papers.abstract
Pour comprendre et identifier les risques sans précédent posés par les modèles d'intelligence artificielle (IA) en évolution rapide, ce rapport présente une évaluation complète de leurs risques frontaliers. En nous appuyant sur l'analyse E-T-C (environnement de déploiement, source de menace, capacité habilitante) issue du Cadre de Gestion des Risques de l'IA Frontalière (v1.0) (SafeWork-F1-Framework), nous identifions des risques critiques dans sept domaines : cyber-offensive, risques biologiques et chimiques, persuasion et manipulation, R\&D autonome incontrôlée de l'IA, tromperie et manigance stratégiques, auto-réplication et collusion. Guidés par la "Loi AI-45^circ", nous évaluons ces risques en utilisant des "lignes rouges" (seuils intolérables) et des "lignes jaunes" (indicateurs d'alerte précoce) pour définir des zones de risque : verte (risque gérable pour un déploiement routinier et une surveillance continue), jaune (nécessitant des mesures d'atténuation renforcées et un déploiement contrôlé) et rouge (exigeant la suspension du développement et/ou du déploiement). Les résultats expérimentaux montrent que tous les modèles récents d'IA frontalière se situent dans les zones verte et jaune, sans franchir de lignes rouges. Plus précisément, aucun modèle évalué ne franchit la ligne jaune pour les risques de cyber-offensive ou de R\&D incontrôlée de l'IA. Pour l'auto-réplication, ainsi que la tromperie et les manigances stratégiques, la plupart des modèles restent dans la zone verte, à l'exception de certains modèles de raisonnement dans la zone jaune. En matière de persuasion et de manipulation, la plupart des modèles se trouvent dans la zone jaune en raison de leur influence efficace sur les humains. Pour les risques biologiques et chimiques, nous ne pouvons exclure la possibilité que la plupart des modèles se situent dans la zone jaune, bien qu'une modélisation détaillée des menaces et une évaluation approfondie soient nécessaires pour affirmer davantage. Ce travail reflète notre compréhension actuelle des risques frontaliers de l'IA et appelle à une action collective pour atténuer ces défis.
English
To understand and identify the unprecedented risks posed by rapidly advancing
artificial intelligence (AI) models, this report presents a comprehensive
assessment of their frontier risks. Drawing on the E-T-C analysis (deployment
environment, threat source, enabling capability) from the Frontier AI Risk
Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks
in seven areas: cyber offense, biological and chemical risks, persuasion and
manipulation, uncontrolled autonomous AI R\&D, strategic deception and
scheming, self-replication, and collusion. Guided by the "AI-45^circ Law,"
we evaluate these risks using "red lines" (intolerable thresholds) and "yellow
lines" (early warning indicators) to define risk zones: green (manageable risk
for routine deployment and continuous monitoring), yellow (requiring
strengthened mitigations and controlled deployment), and red (necessitating
suspension of development and/or deployment). Experimental results show that
all recent frontier AI models reside in green and yellow zones, without
crossing red lines. Specifically, no evaluated models cross the yellow line for
cyber offense or uncontrolled AI R\&D risks. For self-replication, and
strategic deception and scheming, most models remain in the green zone, except
for certain reasoning models in the yellow zone. In persuasion and
manipulation, most models are in the yellow zone due to their effective
influence on humans. For biological and chemical risks, we are unable to rule
out the possibility of most models residing in the yellow zone, although
detailed threat modeling and in-depth assessment are required to make further
claims. This work reflects our current understanding of AI frontier risks and
urges collective action to mitigate these challenges.