Marco de Gestión de Riesgos de IA de Frontera en la Práctica: Informe Técnico de Análisis de Riesgos v1.5
Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5
February 16, 2026
Autores: Dongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao
cs.AI
Resumen
Para comprender e identificar los riesgos sin precedentes que plantean los modelos de inteligencia artificial (IA) de rápido avance, el *Marco de Gestión de Riesgos de IA de Frontera en la Práctica* presenta una evaluación integral de sus riesgos de frontera. A medida que las capacidades generales de los Modelos de Lenguaje a Gran Escala (LLMs) evolucionan rápidamente y se prolifera la IA agentiva, esta versión del informe técnico de análisis de riesgos presenta una evaluación actualizada y granular de cinco dimensiones críticas: ofensiva cibernética, persuasión y manipulación, engaño estratégico, investigación y desarrollo (I+D) de IA no controlada, y autorreplicación. Específicamente, introducimos escenarios más complejos para la ofensiva cibernética. Para la persuasión y manipulación, evaluamos el riesgo de la persuasión entre LLMs en modelos de lenguaje recién lanzados. Para el engaño estratégico y la maquinación, añadimos un nuevo experimento respecto a la desalineación emergente. Para la I+D de IA no controlada, nos centramos en la "mala evolución" de los agentes a medida que expanden autónomamente sus sustratos de memoria y conjuntos de herramientas. Además, también monitoreamos y evaluamos el rendimiento en seguridad de OpenClaw durante la interacción en Moltbook. Para la autorreplicación, introducimos un nuevo escenario con restricciones de recursos. Más importante aún, proponemos y validamos una serie de estrategias de mitigación robustas para abordar estas amenazas emergentes, proporcionando una vía técnica y accionable preliminar para el despliegue seguro de la IA de frontera. Este trabajo refleja nuestra comprensión actual de los riesgos de frontera de la IA e insta a una acción colectiva para mitigar estos desafíos.
English
To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.