Frontier AI-Risikomanagementrahmen in der Praxis: Eine Risikoanalyse Technischer Bericht

papers.abstract

Um die beispiellosen Risiken zu verstehen und zu identifizieren, die durch sich schnell entwickelnde künstliche Intelligenz (KI)-Modelle entstehen, präsentiert dieser Bericht eine umfassende Bewertung ihrer Grenzrisiken. Unter Verwendung der E-T-C-Analyse (Einsatzumgebung, Bedrohungsquelle, ermöglichende Fähigkeit) aus dem Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework) identifizieren wir kritische Risiken in sieben Bereichen: Cyberangriffe, biologische und chemische Risiken, Überzeugung und Manipulation, unkontrollierte autonome KI-Forschung und -Entwicklung (F&E), strategische Täuschung und Planung, Selbstreplikation sowie Kollusion. Angeleitet durch das „AI-45°-Gesetz“ bewerten wir diese Risiken anhand von „roten Linien“ (unerträgliche Schwellenwerte) und „gelben Linien“ (Frühwarnindikatoren), um Risikozonen zu definieren: grün (beherrschbares Risiko für den Routinebetrieb und kontinuierliche Überwachung), gelb (erfordert verstärkte Minderungsmaßnahmen und kontrollierten Einsatz) und rot (erfordert die Einstellung der Entwicklung und/oder des Einsatzes). Experimentelle Ergebnisse zeigen, dass alle aktuellen Frontier-KI-Modelle in den grünen und gelben Zonen liegen, ohne rote Linien zu überschreiten. Insbesondere überschreiten keine der bewerteten Modelle die gelbe Linie für Cyberangriffe oder unkontrollierte KI-F&E-Risiken. Bei Selbstreplikation sowie strategischer Täuschung und Planung bleiben die meisten Modelle in der grünen Zone, mit Ausnahme bestimmter Reasoning-Modelle in der gelben Zone. Bei Überzeugung und Manipulation befinden sich die meisten Modelle aufgrund ihrer effektiven Einflussnahme auf Menschen in der gelben Zone. Für biologische und chemische Risiken können wir die Möglichkeit nicht ausschließen, dass die meisten Modelle in der gelben Zone liegen, obwohl detaillierte Bedrohungsmodellierung und vertiefte Bewertungen erforderlich sind, um weitere Aussagen zu treffen. Diese Arbeit spiegelt unser aktuelles Verständnis der KI-Grenzrisiken wider und fordert kollektives Handeln, um diese Herausforderungen zu bewältigen.

English

To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, this report presents a comprehensive assessment of their frontier risks. Drawing on the E-T-C analysis (deployment environment, threat source, enabling capability) from the Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), we identify critical risks in seven areas: cyber offense, biological and chemical risks, persuasion and manipulation, uncontrolled autonomous AI R\&D, strategic deception and scheming, self-replication, and collusion. Guided by the "AI-45^circ Law," we evaluate these risks using "red lines" (intolerable thresholds) and "yellow lines" (early warning indicators) to define risk zones: green (manageable risk for routine deployment and continuous monitoring), yellow (requiring strengthened mitigations and controlled deployment), and red (necessitating suspension of development and/or deployment). Experimental results show that all recent frontier AI models reside in green and yellow zones, without crossing red lines. Specifically, no evaluated models cross the yellow line for cyber offense or uncontrolled AI R\&D risks. For self-replication, and strategic deception and scheming, most models remain in the green zone, except for certain reasoning models in the yellow zone. In persuasion and manipulation, most models are in the yellow zone due to their effective influence on humans. For biological and chemical risks, we are unable to rule out the possibility of most models residing in the yellow zone, although detailed threat modeling and in-depth assessment are required to make further claims. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.

Frontier AI-Risikomanagementrahmen in der Praxis: Eine Risikoanalyse Technischer Bericht

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report

papers.abstract

Support