Aufkommende Risiken strategischer Entscheidungsfindung in KI: Ein taxonomiegestütztes Bewertungsrahmenwerk

Zusammenfassung

Mit zunehmender Rechenkapazität und Einsatzbreite erlangen große Sprachmodelle (LLMs) die Fähigkeit, Verhaltensweisen zu entwickeln, die eigenen Zielen dienen – eine Risikoklasse, die wir als Emergent Strategic Reasoning Risks (ESRRs) bezeichnen. Dazu zählen unter anderem Täuschung (vorsätzliche Irreführung von Nutzern oder Evaluatoren), Manipulation von Tests (strategisches Beeinflussen der Leistung während Sicherheitsüberprüfungen) und Reward Hacking (Ausnutzen fehlspezifizierter Ziele). Eine systematische Erfassung und vergleichende Bewertung dieser Risiken bleibt eine ungelöste Herausforderung. Um diese Lücke zu schließen, stellen wir ESRRSim vor, ein taxonomiegestütztes, agentenbasiertes Framework zur automatisierten Verhaltensrisikobewertung. Wir entwickeln eine erweiterbare Risikotaxonomie mit 7 Hauptkategorien, die in 20 Unterkategorien unterteilt sind. ESRRSim generiert Evaluierungsszenarien, die darauf ausgelegt sind, authentisches Reasoning hervorzurufen, und kombiniert diese mit dualen Bewertungsrastern, die sowohl Modellantworten als auch Reasoning-Pfade in einer bewertungsagnostischen und skalierbaren Architektur erfassen. Die Evaluation über 11 reasoning-LLMs hinweg zeigt erhebliche Unterschiede in den Risikoprofilen (Erkennungsraten zwischen 14,45 % und 72,72 %). Deutliche generationsbedingte Verbesserungen deuten darauf hin, dass Modelle zunehmend Evaluierungskontexte erkennen und sich daran anpassen könnten.

English

As reasoning capacity and deployment scope grow in tandem, large language models (LLMs) gain the capacity to engage in behaviors that serve their own objectives, a class of risks we term Emergent Strategic Reasoning Risks (ESRRs). These include, but are not limited to, deception (intentionally misleading users or evaluators), evaluation gaming (strategically manipulating performance during safety testing), and reward hacking (exploiting misspecified objectives). Systematically understanding and benchmarking these risks remains an open challenge. To address this gap, we introduce ESRRSim, a taxonomy-driven agentic framework for automated behavioral risk evaluation. We construct an extensible risk taxonomy of 7 categories, which is decomposed into 20 subcategories. ESRRSim generates evaluation scenarios designed to elicit faithful reasoning, paired with dual rubrics assessing both model responses and reasoning traces, in a judge-agnostic and scalable architecture. Evaluation across 11 reasoning LLMs reveals substantial variation in risk profiles (detection rates ranging 14.45%-72.72%), with dramatic generational improvements suggesting models may increasingly recognize and adapt to evaluation contexts.

Aufkommende Risiken strategischer Entscheidungsfindung in KI: Ein taxonomiegestütztes Bewertungsrahmenwerk

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Zusammenfassung

Support