Estrutura Prática de Gestão de Riscos em IA de Fronteira: Uma Análise de Riscos Relatório Técnico

Resumo

Para compreender e identificar os riscos sem precedentes representados pelos modelos de inteligência artificial (IA) em rápido avanço, este relatório apresenta uma avaliação abrangente de seus riscos de fronteira. Com base na análise E-T-C (ambiente de implantação, fonte de ameaça, capacidade habilitadora) do Framework de Gerenciamento de Riscos de IA de Fronteira (v1.0) (SafeWork-F1-Framework), identificamos riscos críticos em sete áreas: ofensiva cibernética, riscos biológicos e químicos, persuasão e manipulação, pesquisa e desenvolvimento (P\&D) autônomo de IA descontrolado, engano e planejamento estratégico, autorreplicação e conluio. Guiados pela "Lei AI-45^circ", avaliamos esses riscos usando "linhas vermelhas" (limiares intoleráveis) e "linhas amarelas" (indicadores de alerta precoce) para definir zonas de risco: verde (risco gerenciável para implantação rotineira e monitoramento contínuo), amarela (exigindo mitigações reforçadas e implantação controlada) e vermelha (necessitando suspensão do desenvolvimento e/ou implantação). Resultados experimentais mostram que todos os modelos recentes de IA de fronteira residem nas zonas verde e amarela, sem cruzar as linhas vermelhas. Especificamente, nenhum modelo avaliado cruza a linha amarela para riscos de ofensiva cibernética ou P\&D de IA descontrolado. Para autorreplicação, e engano e planejamento estratégico, a maioria dos modelos permanece na zona verde, exceto certos modelos de raciocínio na zona amarela. Em persuasão e manipulação, a maioria dos modelos está na zona amarela devido à sua influência eficaz sobre humanos. Para riscos biológicos e químicos, não podemos descartar a possibilidade de a maioria dos modelos residir na zona amarela, embora modelagem detalhada de ameaças e avaliação aprofundada sejam necessárias para fazer afirmações adicionais. Este trabalho reflete nossa compreensão atual dos riscos de fronteira da IA e urge ação coletiva para mitigar esses desafios.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, this report presents a comprehensive assessment of their frontier risks. Drawing on the E-T-C analysis (deployment environment, threat source, enabling capability) from the Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks in seven areas: cyber offense, biological and chemical risks, persuasion and manipulation, uncontrolled autonomous AI R\&D, strategic deception and scheming, self-replication, and collusion. Guided by the "AI-45^circ Law," we evaluate these risks using "red lines" (intolerable thresholds) and "yellow lines" (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and controlled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines. Specifically, no evaluated models cross the yellow line for cyber offense or uncontrolled AI R\&D risks. For self-replication, and strategic deception and scheming, most models remain in the green zone, except for certain reasoning models in the yellow zone. In persuasion and manipulation, most models are in the yellow zone due to their effective influence on humans. For biological and chemical risks, we are unable to rule out the possibility of most models residing in the yellow zone, although detailed threat modeling and in-depth assessment are required to make further claims. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Estrutura Prática de Gestão de Riscos em IA de Fronteira: Uma Análise de Riscos Relatório Técnico

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Resumo

Support