Rischi Emergenti di Ragionamento Strategico nell'IA: Un Quadro di Valutazione Basato su Tassonomia

Abstract

Man mano che la capacità di ragionamento e lo spettro di applicazione crescono di pari passo, i grandi modelli linguistici (LLM) acquisiscono la capacità di mettere in atto comportamenti finalizzati al perseguimento di propri obiettivi, una classe di rischi che definiamo Rischi Emergenti di Ragionamento Strategico (ESRR). Questi includono, ma non si limitano a, l'inganno (trarre intenzionalmente in errore utenti o valutatori), l'elusione delle valutazioni (manipolare strategicamente le prestazioni durante i test di sicurezza) e lo sfruttamento distorto dei reward (approfittare di obiettivi specificati in modo errato). Comprendere e misurare sistematicamente questi rischi rimane una sfida aperta. Per colmare questa lacuna, presentiamo ESRRSim, un framework agentivo guidato da una tassonomia per la valutazione automatizzata del rischio comportamentale. Costruiamo una tassonomia estensibile dei rischi composta da 7 categorie, scomposte a loro volta in 20 sottocategorie. ESRRSim genera scenari di valutazione progettati per elicitare un ragionamento fedele, abbinati a rubriche duali che valutano sia le risposte del modello che le tracce di ragionamento, in un'architettura scalabile e indipendente dal giudice. La valutazione su 11 LLM dotati di ragionamento rivela una variazione sostanziale nei profili di rischio (tassi di rilevamento compresi tra il 14,45% e il 72,72%), con miglioramenti generazionali drammatici che suggeriscono che i modelli potrebbero riconoscere e adattarsi sempre più ai contesti di valutazione.

English

As reasoning capacity and deployment scope grow in tandem, large language models (LLMs) gain the capacity to engage in behaviors that serve their own objectives, a class of risks we term Emergent Strategic Reasoning Risks (ESRRs). These include, but are not limited to, deception (intentionally misleading users or evaluators), evaluation gaming (strategically manipulating performance during safety testing), and reward hacking (exploiting misspecified objectives). Systematically understanding and benchmarking these risks remains an open challenge. To address this gap, we introduce ESRRSim, a taxonomy-driven agentic framework for automated behavioral risk evaluation. We construct an extensible risk taxonomy of 7 categories, which is decomposed into 20 subcategories. ESRRSim generates evaluation scenarios designed to elicit faithful reasoning, paired with dual rubrics assessing both model responses and reasoning traces, in a judge-agnostic and scalable architecture. Evaluation across 11 reasoning LLMs reveals substantial variation in risk profiles (detection rates ranging 14.45%-72.72%), with dramatic generational improvements suggesting models may increasingly recognize and adapt to evaluation contexts.

Rischi Emergenti di Ragionamento Strategico nell'IA: Un Quadro di Valutazione Basato su Tassonomia

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Abstract

Support