Quadro Pratico per la Gestione del Rischio delle IA di Frontiera: Rapporto Tecnico di Analisi del Rischio v1.5

Abstract

Per comprendere e identificare i rischi senza precedenti posti dai modelli di intelligenza artificiale (IA) in rapida evoluzione, il documento *Frontier AI Risk Management Framework in Practice* presenta una valutazione completa dei loro rischi di frontiera. Con il rapido sviluppo delle capacità generali dei Large Language Model (LLM) e la proliferazione dell'IA agenziale, questa versione del rapporto tecnico di analisi del rischio presenta una valutazione aggiornata e granulare di cinque dimensioni critiche: offensiva informatica, persuasione e manipolazione, inganno strategico, R&S incontrollata dell'IA e auto-replicazione. Nello specifico, introduciamo scenari più complessi per l'offensiva informatica. Per la persuasione e la manipolazione, valutiamo il rischio di persuasione da LLM a LLM su modelli appena rilasciati. Per l'inganno strategico e la pianificazione subdola, aggiungiamo un nuovo esperimento riguardante il disallineamento emergente. Per la R&S incontrollata dell'IA, ci concentriamo sulla "cattiva evoluzione" degli agenti mentre espandono autonomamente i loro substrati di memoria e set di strumenti. Inoltre, monitoriamo e valutiamo le prestazioni di sicurezza di OpenClaw durante l'interazione su Moltbook. Per l'auto-replicazione, introduciamo un nuovo scenario con risorse limitate. Ancora più importante, proponiamo e convalidiamo una serie di strategie di mitigazione robuste per affrontare queste minacce emergenti, fornendo un percorso tecnico e attuabile preliminare per la distribuzione sicura dell'IA di frontiera. Questo lavoro riflette la nostra attuale comprensione dei rischi di frontiera dell'IA e sollecita un'azione collettiva per mitigare queste sfide.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Quadro Pratico per la Gestione del Rischio delle IA di Frontiera: Rapporto Tecnico di Analisi del Rischio v1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Abstract

Support