ChatPaper.aiChatPaper

RE-IMAGINE: Sintesi di Benchmark Simbolici per la Valutazione del Ragionamento

RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

June 18, 2025
Autori: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI

Abstract

I recenti modelli linguistici di grandi dimensioni (LLM) hanno riportato un'elevata accuratezza nei benchmark di ragionamento. Tuttavia, non è ancora chiaro se i risultati osservati derivino da un vero ragionamento o da un richiamo statistico del set di addestramento. Ispirati dalla scala della causalità (Pearl, 2009) e dai suoi tre livelli (associazioni, interventi e controfattuali), questo articolo introduce RE-IMAGINE, un framework per caratterizzare una gerarchia di abilità di ragionamento nei LLM, insieme a una pipeline automatizzata per generare variazioni di problemi a diversi livelli della gerarchia. Modificando i problemi in una rappresentazione simbolica intermedia, RE-IMAGINE genera un numero arbitrario di problemi che non possono essere risolti utilizzando solo la memorizzazione. Inoltre, il framework è generale e può funzionare in diversi domini di ragionamento, inclusi matematica, codice e logica. Dimostriamo il nostro framework su quattro benchmark ampiamente utilizzati per valutare diverse famiglie di LLM, e osserviamo riduzioni nelle prestazioni quando i modelli vengono interrogati con variazioni di problemi. Queste valutazioni indicano un certo grado di affidamento sul richiamo statistico per le prestazioni passate, e aprono la porta a ulteriori ricerche mirate a sviluppare competenze attraverso la gerarchia del ragionamento.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning benchmarks. However, it is still unclear whether the observed results arise from true reasoning or from statistical recall of the training set. Inspired by the ladder of causation (Pearl, 2009) and its three levels (associations, interventions and counterfactuals), this paper introduces RE-IMAGINE, a framework to characterize a hierarchy of reasoning ability in LLMs, alongside an automated pipeline to generate problem variations at different levels of the hierarchy. By altering problems in an intermediate symbolic representation, RE-IMAGINE generates arbitrarily many problems that are not solvable using memorization alone. Moreover, the framework is general and can work across reasoning domains, including math, code, and logic. We demonstrate our framework on four widely-used benchmarks to evaluate several families of LLMs, and observe reductions in performance when the models are queried with problem variations. These assessments indicate a degree of reliance on statistical recall for past performance, and open the door to further research targeting skills across the reasoning hierarchy.
PDF43June 20, 2025