Estrutura Prática de Gestão de Riscos de IA de Fronteira: Relatório Técnico de Análise de Riscos v1.5

Resumo

Para compreender e identificar os riscos sem precedentes representados pelos modelos de inteligência artificial (IA) em rápido avanço, o *Framework Prático de Gestão de Riscos de IA de Fronteira* apresenta uma avaliação abrangente dos seus riscos de ponta. À medida que as capacidades gerais dos Modelos de Linguagem de Grande Escala (LLMs) evoluem rapidamente e a proliferação de IA agentiva se intensifica, esta versão do relatório técnico de análise de riscos apresenta uma avaliação atualizada e granular de cinco dimensões críticas: ofensivas cibernéticas, persuasão e manipulação, decepção estratégica, Pesquisa e Desenvolvimento (P\&D) de IA não controlada e autorreplicação. Especificamente, introduzimos cenários mais complexos para ofensivas cibernéticas. Para persuasão e manipulação, avaliamos o risco de persuasão entre LLMs em modelos recém-lançados. Para decepção estratégica e conluio, adicionamos um novo experimento relativo ao desalinhamento emergente. Para P\&D de IA não controlada, focamo-nos na "má-evolução" de agentes à medida que estes expandem autonomamente os seus substratos de memória e conjuntos de ferramentas. Além disso, também monitorizamos e avaliamos o desempenho de segurança do OpenClaw durante a interação no Moltbook. Para a autorreplicação, introduzimos um novo cenário com restrições de recursos. Mais importante ainda, propomos e validamos uma série de estratégias de mitigação robustas para enfrentar estas ameaças emergentes, fornecendo um caminho técnico e acionável preliminar para a implantação segura da IA de fronteira. Este trabalho reflete a nossa compreensão atual dos riscos de ponta da IA e apela a uma ação coletiva para mitigar estes desafios.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Estrutura Prática de Gestão de Riscos de IA de Fronteira: Relatório Técnico de Análise de Riscos v1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Resumo

Support