ChatPaper.aiChatPaper

RE-IMAGINE: Symbolische Benchmark-Synthese zur Bewertung von Denkprozessen

RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

June 18, 2025
papers.authors: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI

papers.abstract

Aktuelle Large Language Models (LLMs) haben hohe Genauigkeit bei Reasoning-Benchmarks gemeldet. Es ist jedoch noch unklar, ob die beobachteten Ergebnisse auf echtes Reasoning oder auf statistisches Abrufen des Trainingsdatensatzes zurückzuführen sind. Inspiriert von der Leiter der Kausalität (Pearl, 2009) und ihren drei Ebenen (Assoziationen, Interventionen und Kontrafaktische) stellt dieses Paper RE-IMAGINE vor, ein Framework zur Charakterisierung einer Hierarchie von Reasoning-Fähigkeiten in LLMs, zusammen mit einer automatisierten Pipeline zur Generierung von Problemvariationen auf verschiedenen Ebenen der Hierarchie. Durch die Veränderung von Problemen in einer intermediären symbolischen Repräsentation generiert RE-IMAGINE beliebig viele Probleme, die nicht allein durch Auswendiglernen lösbar sind. Darüber hinaus ist das Framework allgemeingültig und kann über verschiedene Reasoning-Domänen hinweg eingesetzt werden, einschließlich Mathematik, Code und Logik. Wir demonstrieren unser Framework anhand von vier weit verbreiteten Benchmarks zur Bewertung mehrerer LLM-Familien und beobachten Leistungseinbußen, wenn die Modelle mit Problemvariationen abgefragt werden. Diese Bewertungen deuten auf einen gewissen Grad an Abhängigkeit von statistischem Abrufen für vergangene Leistungen hin und eröffnen die Tür zu weiterer Forschung, die Fähigkeiten über die Reasoning-Hierarchie hinweg gezielt untersucht.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning benchmarks. However, it is still unclear whether the observed results arise from true reasoning or from statistical recall of the training set. Inspired by the ladder of causation (Pearl, 2009) and its three levels (associations, interventions and counterfactuals), this paper introduces RE-IMAGINE, a framework to characterize a hierarchy of reasoning ability in LLMs, alongside an automated pipeline to generate problem variations at different levels of the hierarchy. By altering problems in an intermediate symbolic representation, RE-IMAGINE generates arbitrarily many problems that are not solvable using memorization alone. Moreover, the framework is general and can work across reasoning domains, including math, code, and logic. We demonstrate our framework on four widely-used benchmarks to evaluate several families of LLMs, and observe reductions in performance when the models are queried with problem variations. These assessments indicate a degree of reliance on statistical recall for past performance, and open the door to further research targeting skills across the reasoning hierarchy.
PDF43June 20, 2025