RE-IMAGINE: Síntesis de Puntos de Referencia Simbólicos para la Evaluación del Razonamiento

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) recientes han reportado una alta precisión en benchmarks de razonamiento. Sin embargo, aún no está claro si los resultados observados surgen de un razonamiento verdadero o de la recuperación estadística del conjunto de entrenamiento. Inspirado por la escalera de la causalidad (Pearl, 2009) y sus tres niveles (asociaciones, intervenciones y contrafácticos), este artículo presenta RE-IMAGINE, un marco para caracterizar una jerarquía de habilidades de razonamiento en LLMs, junto con una pipeline automatizada para generar variaciones de problemas en diferentes niveles de la jerarquía. Al modificar problemas en una representación simbólica intermedia, RE-IMAGINE genera un número arbitrario de problemas que no pueden resolverse únicamente mediante memorización. Además, el marco es general y puede aplicarse en diversos dominios de razonamiento, incluyendo matemáticas, código y lógica. Demostramos nuestro marco en cuatro benchmarks ampliamente utilizados para evaluar varias familias de LLMs, y observamos reducciones en el rendimiento cuando los modelos son consultados con variaciones de problemas. Estas evaluaciones indican un grado de dependencia en la recuperación estadística para el desempeño pasado, y abren la puerta a investigaciones futuras dirigidas a habilidades a lo largo de la jerarquía de razonamiento.

English

Recent Large Language Models (LLMs) have reported high accuracy on reasoning benchmarks. However, it is still unclear whether the observed results arise from true reasoning or from statistical recall of the training set. Inspired by the ladder of causation (Pearl, 2009) and its three levels (associations, interventions and counterfactuals), this paper introduces RE-IMAGINE, a framework to characterize a hierarchy of reasoning ability in LLMs, alongside an automated pipeline to generate problem variations at different levels of the hierarchy. By altering problems in an intermediate symbolic representation, RE-IMAGINE generates arbitrarily many problems that are not solvable using memorization alone. Moreover, the framework is general and can work across reasoning domains, including math, code, and logic. We demonstrate our framework on four widely-used benchmarks to evaluate several families of LLMs, and observe reductions in performance when the models are queried with problem variations. These assessments indicate a degree of reliance on statistical recall for past performance, and open the door to further research targeting skills across the reasoning hierarchy.

RE-IMAGINE: Síntesis de Puntos de Referencia Simbólicos para la Evaluación del Razonamiento

RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

Resumen

Support