RE-IMAGINE : Synthèse de benchmarks symboliques pour l'évaluation du raisonnement
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
June 18, 2025
Auteurs: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI
Résumé
Les récents modèles de langage à grande échelle (LLMs) ont rapporté une grande précision sur les benchmarks de raisonnement. Cependant, il reste incertain si les résultats observés découlent d'un véritable raisonnement ou d'une récupération statistique de l'ensemble d'entraînement. Inspiré par l'échelle de causalité (Pearl, 2009) et ses trois niveaux (associations, interventions et contre-factuels), cet article présente RE-IMAGINE, un cadre pour caractériser une hiérarchie des capacités de raisonnement dans les LLMs, ainsi qu'un pipeline automatisé pour générer des variations de problèmes à différents niveaux de cette hiérarchie. En modifiant les problèmes dans une représentation symbolique intermédiaire, RE-IMAGINE génère un nombre arbitraire de problèmes qui ne peuvent être résolus par la simple mémorisation. De plus, le cadre est général et peut fonctionner dans divers domaines de raisonnement, y compris les mathématiques, le code et la logique. Nous démontrons notre cadre sur quatre benchmarks largement utilisés pour évaluer plusieurs familles de LLMs, et observons une réduction des performances lorsque les modèles sont interrogés avec des variations de problèmes. Ces évaluations indiquent un certain degré de dépendance à la récupération statistique pour les performances passées, et ouvrent la voie à des recherches supplémentaires visant les compétences à travers la hiérarchie de raisonnement.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning
benchmarks. However, it is still unclear whether the observed results arise
from true reasoning or from statistical recall of the training set. Inspired by
the ladder of causation (Pearl, 2009) and its three levels (associations,
interventions and counterfactuals), this paper introduces RE-IMAGINE, a
framework to characterize a hierarchy of reasoning ability in LLMs, alongside
an automated pipeline to generate problem variations at different levels of the
hierarchy. By altering problems in an intermediate symbolic representation,
RE-IMAGINE generates arbitrarily many problems that are not solvable using
memorization alone. Moreover, the framework is general and can work across
reasoning domains, including math, code, and logic. We demonstrate our
framework on four widely-used benchmarks to evaluate several families of LLMs,
and observe reductions in performance when the models are queried with problem
variations. These assessments indicate a degree of reliance on statistical
recall for past performance, and open the door to further research targeting
skills across the reasoning hierarchy.