Frontier AI Risicobeheersingskader in de Praktijk: Een Risicoanalyse Technisch Rapport

Samenvatting

Om de ongekende risico's te begrijpen en te identificeren die worden veroorzaakt door snel voortschrijdende kunstmatige intelligentie (AI)-modellen, presenteert dit rapport een uitgebreide beoordeling van hun grensrisico's. Gebaseerd op de E-T-C-analyse (implementatieomgeving, bedreigingsbron, mogelijk makende capaciteit) uit het Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), identificeren we kritieke risico's in zeven gebieden: cyberaanvallen, biologische en chemische risico's, overtuiging en manipulatie, ongecontroleerde autonome AI R\&D, strategische misleiding en samenzwering, zelfreplicatie, en samenspanning. Geleid door de "AI-45^circ Wet," evalueren we deze risico's met behulp van "rode lijnen" (onacceptabele drempels) en "gele lijnen" (vroege waarschuwingsindicatoren) om risicozones te definiëren: groen (beheersbaar risico voor routinematige implementatie en continue monitoring), geel (vereist versterkte mitigaties en gecontroleerde implementatie), en rood (vereist opschorting van ontwikkeling en/of implementatie). Experimentele resultaten tonen aan dat alle recente frontier AI-modellen zich in de groene en gele zones bevinden, zonder rode lijnen te overschrijden. Specifiek overschrijdt geen enkel geëvalueerd model de gele lijn voor cyberaanvallen of ongecontroleerde AI R\&D-risico's. Voor zelfreplicatie, en strategische misleiding en samenzwering, blijven de meeste modellen in de groene zone, met uitzondering van bepaalde redeneermodellen in de gele zone. Bij overtuiging en manipulatie bevinden de meeste modellen zich in de gele zone vanwege hun effectieve invloed op mensen. Voor biologische en chemische risico's kunnen we de mogelijkheid niet uitsluiten dat de meeste modellen zich in de gele zone bevinden, hoewel gedetailleerde bedreigingsmodellering en diepgaande beoordeling nodig zijn om verdere claims te maken. Dit werk weerspiegelt ons huidige begrip van AI-grensrisico's en dringt aan op collectieve actie om deze uitdagingen te mitigeren.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, this report presents a comprehensive assessment of their frontier risks. Drawing on the E-T-C analysis (deployment environment, threat source, enabling capability) from the Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks in seven areas: cyber offense, biological and chemical risks, persuasion and manipulation, uncontrolled autonomous AI R\&D, strategic deception and scheming, self-replication, and collusion. Guided by the "AI-45^circ Law," we evaluate these risks using "red lines" (intolerable thresholds) and "yellow lines" (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and controlled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines. Specifically, no evaluated models cross the yellow line for cyber offense or uncontrolled AI R\&D risks. For self-replication, and strategic deception and scheming, most models remain in the green zone, except for certain reasoning models in the yellow zone. In persuasion and manipulation, most models are in the yellow zone due to their effective influence on humans. For biological and chemical risks, we are unable to rule out the possibility of most models residing in the yellow zone, although detailed threat modeling and in-depth assessment are required to make further claims. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Frontier AI Risicobeheersingskader in de Praktijk: Een Risicoanalyse Technisch Rapport

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

Samenvatting

Support