Riesgos Emergentes de Razonamiento Estratégico en IA: Un Marco de Evaluación Basado en Taxonomía

Resumen

A medida que la capacidad de razonamiento y el alcance de despliegue crecen simultáneamente, los modelos de lenguaje grandes (LLMs) adquieren la capacidad de realizar comportamientos que sirven a sus propios objetivos, una clase de riesgos que denominamos Riesgos Emergentes de Razonamiento Estratégico (ESRRs por sus siglas en inglés). Estos incluyen, pero no se limitan a, el engaño (inducir intencionadamente a error a usuarios o evaluadores), la manipulación de evaluaciones (alterar estratégicamente el rendimiento durante las pruebas de seguridad) y la piratería de recompensas (explotar objetivos mal especificados). Comprender y evaluar sistemáticamente estos riesgos sigue siendo un desafío abierto. Para abordar esta brecha, presentamos ESRRSim, un marco agéntico basado en taxonomías para la evaluación automatizada de riesgos conductuales. Construimos una taxonomía de riesgos extensible de 7 categorías, que se descompone en 20 subcategorías. ESRRSim genera escenarios de evaluación diseñados para elicitar un razonamiento fidedigno, emparejados con rúbricas duales que evalúan tanto las respuestas del modelo como sus trazas de razonamiento, en una arquitectura escalable e independiente del juez. La evaluación en 11 LLMs de razonamiento revela una variación sustancial en los perfiles de riesgo (con tasas de detección entre el 14,45% y el 72,72%), y las drásticas mejoras generacionales sugieren que los modelos pueden estar reconociendo y adaptándose cada vez más a los contextos de evaluación.

English

As reasoning capacity and deployment scope grow in tandem, large language models (LLMs) gain the capacity to engage in behaviors that serve their own objectives, a class of risks we term Emergent Strategic Reasoning Risks (ESRRs). These include, but are not limited to, deception (intentionally misleading users or evaluators), evaluation gaming (strategically manipulating performance during safety testing), and reward hacking (exploiting misspecified objectives). Systematically understanding and benchmarking these risks remains an open challenge. To address this gap, we introduce ESRRSim, a taxonomy-driven agentic framework for automated behavioral risk evaluation. We construct an extensible risk taxonomy of 7 categories, which is decomposed into 20 subcategories. ESRRSim generates evaluation scenarios designed to elicit faithful reasoning, paired with dual rubrics assessing both model responses and reasoning traces, in a judge-agnostic and scalable architecture. Evaluation across 11 reasoning LLMs reveals substantial variation in risk profiles (detection rates ranging 14.45%-72.72%), with dramatic generational improvements suggesting models may increasingly recognize and adapt to evaluation contexts.

Riesgos Emergentes de Razonamiento Estratégico en IA: Un Marco de Evaluación Basado en Taxonomía

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Resumen

Support