RE-IMAGINE: Síntesis de Puntos de Referencia Simbólicos para la Evaluación del Razonamiento
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
June 18, 2025
Autores: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) recientes han reportado una alta precisión en benchmarks de razonamiento. Sin embargo, aún no está claro si los resultados observados surgen de un razonamiento verdadero o de la recuperación estadística del conjunto de entrenamiento. Inspirado por la escalera de la causalidad (Pearl, 2009) y sus tres niveles (asociaciones, intervenciones y contrafácticos), este artículo presenta RE-IMAGINE, un marco para caracterizar una jerarquía de habilidades de razonamiento en LLMs, junto con una pipeline automatizada para generar variaciones de problemas en diferentes niveles de la jerarquía. Al modificar problemas en una representación simbólica intermedia, RE-IMAGINE genera un número arbitrario de problemas que no pueden resolverse únicamente mediante memorización. Además, el marco es general y puede aplicarse en diversos dominios de razonamiento, incluyendo matemáticas, código y lógica. Demostramos nuestro marco en cuatro benchmarks ampliamente utilizados para evaluar varias familias de LLMs, y observamos reducciones en el rendimiento cuando los modelos son consultados con variaciones de problemas. Estas evaluaciones indican un grado de dependencia en la recuperación estadística para el desempeño pasado, y abren la puerta a investigaciones futuras dirigidas a habilidades a lo largo de la jerarquía de razonamiento.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning
benchmarks. However, it is still unclear whether the observed results arise
from true reasoning or from statistical recall of the training set. Inspired by
the ladder of causation (Pearl, 2009) and its three levels (associations,
interventions and counterfactuals), this paper introduces RE-IMAGINE, a
framework to characterize a hierarchy of reasoning ability in LLMs, alongside
an automated pipeline to generate problem variations at different levels of the
hierarchy. By altering problems in an intermediate symbolic representation,
RE-IMAGINE generates arbitrarily many problems that are not solvable using
memorization alone. Moreover, the framework is general and can work across
reasoning domains, including math, code, and logic. We demonstrate our
framework on four widely-used benchmarks to evaluate several families of LLMs,
and observe reductions in performance when the models are queried with problem
variations. These assessments indicate a degree of reliance on statistical
recall for past performance, and open the door to further research targeting
skills across the reasoning hierarchy.