RE-IMAGINE: Symbolische Benchmark Synthese voor Evaluatie van Redeneervaardigheden
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
June 18, 2025
Auteurs: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI
Samenvatting
Recente Large Language Models (LLMs) hebben een hoge nauwkeurigheid gerapporteerd op redeneerbenchmarks. Het is echter nog steeds onduidelijk of de waargenomen resultaten voortkomen uit echt redeneren of uit statistische herinnering van de trainingsset. Geïnspireerd door de ladder van causaliteit (Pearl, 2009) en de drie niveaus daarvan (associaties, interventies en tegenfeitelijkheden), introduceert dit artikel RE-IMAGINE, een raamwerk om een hiërarchie van redeneervaardigheden in LLMs te karakteriseren, samen met een geautomatiseerde pipeline om probleemvariaties te genereren op verschillende niveaus van de hiërarchie. Door problemen te wijzigen in een intermediaire symbolische representatie, genereert RE-IMAGINE willekeurig veel problemen die niet oplosbaar zijn door alleen memorisatie. Bovendien is het raamwerk algemeen en kan het werken over verschillende redeneerdomeinen, waaronder wiskunde, code en logica. We demonstreren ons raamwerk op vier veelgebruikte benchmarks om verschillende families van LLMs te evalueren, en observeren verminderingen in prestaties wanneer de modellen worden bevraagd met probleemvariaties. Deze beoordelingen duiden op een zekere mate van afhankelijkheid van statistische herinnering voor eerdere prestaties, en openen de deur voor verder onderzoek gericht op vaardigheden over de redeneerhiërarchie.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning
benchmarks. However, it is still unclear whether the observed results arise
from true reasoning or from statistical recall of the training set. Inspired by
the ladder of causation (Pearl, 2009) and its three levels (associations,
interventions and counterfactuals), this paper introduces RE-IMAGINE, a
framework to characterize a hierarchy of reasoning ability in LLMs, alongside
an automated pipeline to generate problem variations at different levels of the
hierarchy. By altering problems in an intermediate symbolic representation,
RE-IMAGINE generates arbitrarily many problems that are not solvable using
memorization alone. Moreover, the framework is general and can work across
reasoning domains, including math, code, and logic. We demonstrate our
framework on four widely-used benchmarks to evaluate several families of LLMs,
and observe reductions in performance when the models are queried with problem
variations. These assessments indicate a degree of reliance on statistical
recall for past performance, and open the door to further research targeting
skills across the reasoning hierarchy.