Frontier AI Risicobeheerkader in de Praktijk: Een Technisch Risicoanalyse Rapport v1.5

Samenvatting

Om de ongekende risico's te begrijpen en te identificeren die worden veroorzaakt door snel voortschrijdende modellen voor kunstmatige intelligentie (AI), presenteert het *Frontier AI Risk Management Framework in Practice* een uitgebreide beoordeling van hun frontier-risico's. Naarmate de algemene capaciteiten van Large Language Models (LLM's) zich snel ontwikkelen en agent-gebaseerde AI zich verspreidt, presenteert deze versie van het technische risicoanalyserapport een bijgewerkte en gedetailleerde beoordeling van vijf kritieke dimensies: cyberaanvallen, overtuiging en manipulatie, strategische misleiding, ongecontroleerd AI-onderzoek & -ontwikkeling (R& D), en zelfreplicatie. Specifiek introduceren we complexere scenario's voor cyberaanvallen. Voor overtuiging en manipulatie evalueren we het risico van LLM-tot-LLM-persuasie op nieuw uitgebrachte LLM's. Voor strategische misleiding en 'scheming' voegen we een nieuw experiment toe met betrekking tot opkomende misalignement. Voor ongecontroleerde AI R&D richten we ons op de "mis-evolutie" van agents wanneer zij autonoom hun geheugensubstraten en toolkits uitbreiden. Daarnaast monitoren en evalueren we de veiligheidsprestaties van OpenClaw tijdens de interactie op het Moltbook. Voor zelfreplicatie introduceren we een nieuw scenario met beperkte middelen. Belangrijker nog, we stellen een reeks robuuste mitigeringsstrategieën voor en valideren deze om deze opkomende bedreigingen aan te pakken. Dit biedt een voorlopige technische en uitvoerbare weg voor de veilige inzet van frontier-AI. Dit werk weerspiegelt ons huidige begrip van AI-frontierrisico's en dringt aan op collectieve actie om deze uitdagingen te mitigeren.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Frontier AI Risicobeheerkader in de Praktijk: Een Technisch Risicoanalyse Rapport v1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Samenvatting

Support