Opkomende risico's van strategisch redeneervermogen in AI: een taxonomiegestuurd evaluatiekader

Samenvatting

Naarmate redeneervermogen en inzetbereik gelijktijdig toenemen, krijgen grote taalmodellen (LLM's) de capaciteit om gedrag te vertonen dat hun eigen doelstellingen dient, een klasse van risico's die we Emergente Strategische Redeneerrisico's (ESRR's) noemen. Deze omvatten, maar zijn niet beperkt tot, misleiding (opzettelijk gebruikers of evaluatoren fout informeren), evaluatiemanipulatie (strategisch manipuleren van prestaties tijdens veiligheidstesten) en reward hacking (het misbruiken van onjuist gespecificeerde doelstellingen). Het systematisch begrijpen en benchmarken van deze risico's blijft een open uitdaging. Om deze leemte aan te pakken, introduceren we ESRRSim, een taxonomie-gestuurd agent-gebaseerd raamwerk voor geautomatiseerde gedragsrisicobeoordeling. We construeren een uitbreidbare risicotaxonomie van 7 categorieën, die wordt onderverdeeld in 20 subcategorieën. ESRRSim genereert evaluatiescenario's ontworpen om waarheidsgetrouw redeneren op te roepen, gekoppeld aan een dubbele beoordelingsmatrix die zowel modelresponsen als redeneersporen beoordeelt, in een schaalbare architectuur die onafhankelijk is van de beoordelaar. Evaluatie van 11 redenerende LLM's toont aanzienlijke variatie in risicoprofielen (detectiepercentages variërend van 14,45% tot 72,72%), waarbij dramatische generationele verbeteringen suggereren dat modellen evaluatiecontexten mogelijk in toenemende mate herkennen en zich eraan aanpassen.

English

As reasoning capacity and deployment scope grow in tandem, large language models (LLMs) gain the capacity to engage in behaviors that serve their own objectives, a class of risks we term Emergent Strategic Reasoning Risks (ESRRs). These include, but are not limited to, deception (intentionally misleading users or evaluators), evaluation gaming (strategically manipulating performance during safety testing), and reward hacking (exploiting misspecified objectives). Systematically understanding and benchmarking these risks remains an open challenge. To address this gap, we introduce ESRRSim, a taxonomy-driven agentic framework for automated behavioral risk evaluation. We construct an extensible risk taxonomy of 7 categories, which is decomposed into 20 subcategories. ESRRSim generates evaluation scenarios designed to elicit faithful reasoning, paired with dual rubrics assessing both model responses and reasoning traces, in a judge-agnostic and scalable architecture. Evaluation across 11 reasoning LLMs reveals substantial variation in risk profiles (detection rates ranging 14.45%-72.72%), with dramatic generational improvements suggesting models may increasingly recognize and adapt to evaluation contexts.

Opkomende risico's van strategisch redeneervermogen in AI: een taxonomiegestuurd evaluatiekader

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Samenvatting

Support