Framework per la Gestione del Rischio delle AI di Frontiera in Pratica: Un'Analisi del Rischio Rapporto Tecnico

Abstract

Per comprendere e identificare i rischi senza precedenti posti dai modelli di intelligenza artificiale (IA) in rapida evoluzione, questo rapporto presenta una valutazione completa dei loro rischi di frontiera. Basandoci sull'analisi E-T-C (ambiente di distribuzione, fonte di minaccia, capacità abilitante) del Framework di Gestione del Rischio per l'IA di Frontiera (v1.0) (SafeWork-F1-Framework), identifichiamo rischi critici in sette aree: offensiva informatica, rischi biologici e chimici, persuasione e manipolazione, sviluppo autonomo incontrollato di IA R\&D, inganno strategico e pianificazione, autoreplicazione e collusione. Guidati dalla "Legge AI-45^circ," valutiamo questi rischi utilizzando "linee rosse" (soglie intollerabili) e "linee gialle" (indicatori di allerta precoce) per definire le zone di rischio: verde (rischio gestibile per distribuzione routinaria e monitoraggio continuo), gialla (che richiede mitigazioni rafforzate e distribuzione controllata) e rossa (che necessita la sospensione dello sviluppo e/o della distribuzione). I risultati sperimentali mostrano che tutti i recenti modelli di IA di frontiera si trovano nelle zone verde e gialla, senza superare le linee rosse. Nello specifico, nessun modello valutato supera la linea gialla per i rischi di offensiva informatica o sviluppo autonomo incontrollato di IA R\&D. Per l'autoreplicazione e l'inganno strategico e la pianificazione, la maggior parte dei modelli rimane nella zona verde, ad eccezione di alcuni modelli di ragionamento nella zona gialla. Nella persuasione e manipolazione, la maggior parte dei modelli si trova nella zona gialla a causa della loro efficace influenza sugli esseri umani. Per i rischi biologici e chimici, non possiamo escludere la possibilità che la maggior parte dei modelli risieda nella zona gialla, sebbene siano necessari una modellizzazione dettagliata delle minacce e una valutazione approfondita per avanzare ulteriori affermazioni. Questo lavoro riflette la nostra attuale comprensione dei rischi di frontiera dell'IA e sollecita un'azione collettiva per mitigare queste sfide.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, this report presents a comprehensive assessment of their frontier risks. Drawing on the E-T-C analysis (deployment environment, threat source, enabling capability) from the Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks in seven areas: cyber offense, biological and chemical risks, persuasion and manipulation, uncontrolled autonomous AI R\&D, strategic deception and scheming, self-replication, and collusion. Guided by the "AI-45^circ Law," we evaluate these risks using "red lines" (intolerable thresholds) and "yellow lines" (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and controlled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines. Specifically, no evaluated models cross the yellow line for cyber offense or uncontrolled AI R\&D risks. For self-replication, and strategic deception and scheming, most models remain in the green zone, except for certain reasoning models in the yellow zone. In persuasion and manipulation, most models are in the yellow zone due to their effective influence on humans. For biological and chemical risks, we are unable to rule out the possibility of most models residing in the yellow zone, although detailed threat modeling and in-depth assessment are required to make further claims. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Framework per la Gestione del Rischio delle AI di Frontiera in Pratica: Un'Analisi del Rischio Rapporto Tecnico

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Abstract

Support