Marco de Gestión de Riesgos de IA de Frontera en la Práctica: Un Análisis de Riesgos Informe Técnico

Resumen

Para comprender e identificar los riesgos sin precedentes que plantean los modelos de inteligencia artificial (IA) en rápido avance, este informe presenta una evaluación exhaustiva de sus riesgos fronterizos. Basándonos en el análisis E-T-C (entorno de despliegue, fuente de amenaza, capacidad habilitante) del Marco de Gestión de Riesgos de IA Fronteriza (v1.0) (SafeWork-F1-Framework), identificamos riesgos críticos en siete áreas: ofensiva cibernética, riesgos biológicos y químicos, persuasión y manipulación, investigación y desarrollo (I+D) autónoma de IA no controlada, engaño y maquinación estratégica, autorreplicación y colusión. Guiados por la "Ley AI-45^circ", evaluamos estos riesgos utilizando "líneas rojas" (umbrales intolerables) y "líneas amarillas" (indicadores de alerta temprana) para definir zonas de riesgo: verde (riesgo manejable para despliegue rutinario y monitoreo continuo), amarillo (que requiere mitigaciones reforzadas y despliegue controlado) y rojo (que exige la suspensión del desarrollo y/o despliegue). Los resultados experimentales muestran que todos los modelos recientes de IA fronteriza se encuentran en las zonas verde y amarilla, sin cruzar las líneas rojas. Específicamente, ningún modelo evaluado cruza la línea amarilla para los riesgos de ofensiva cibernética o I+D de IA no controlada. En cuanto a la autorreplicación, y el engaño y maquinación estratégica, la mayoría de los modelos permanecen en la zona verde, excepto ciertos modelos de razonamiento en la zona amarilla. En persuasión y manipulación, la mayoría de los modelos están en la zona amarilla debido a su influencia efectiva sobre los humanos. Para los riesgos biológicos y químicos, no podemos descartar la posibilidad de que la mayoría de los modelos residan en la zona amarilla, aunque se requieren modelado detallado de amenazas y evaluación en profundidad para hacer afirmaciones adicionales. Este trabajo refleja nuestra comprensión actual de los riesgos fronterizos de la IA y urge a la acción colectiva para mitigar estos desafíos.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, this report presents a comprehensive assessment of their frontier risks. Drawing on the E-T-C analysis (deployment environment, threat source, enabling capability) from the Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks in seven areas: cyber offense, biological and chemical risks, persuasion and manipulation, uncontrolled autonomous AI R\&D, strategic deception and scheming, self-replication, and collusion. Guided by the "AI-45^circ Law," we evaluate these risks using "red lines" (intolerable thresholds) and "yellow lines" (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and controlled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines. Specifically, no evaluated models cross the yellow line for cyber offense or uncontrolled AI R\&D risks. For self-replication, and strategic deception and scheming, most models remain in the green zone, except for certain reasoning models in the yellow zone. In persuasion and manipulation, most models are in the yellow zone due to their effective influence on humans. For biological and chemical risks, we are unable to rule out the possibility of most models residing in the yellow zone, although detailed threat modeling and in-depth assessment are required to make further claims. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Marco de Gestión de Riesgos de IA de Frontera en la Práctica: Un Análisis de Riesgos Informe Técnico

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Resumen

Support