ChatPaper.aiChatPaper

RE-IMAGINE: Síntese de Benchmarks Simbólicos para Avaliação de Raciocínio

RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

June 18, 2025
Autores: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI

Resumo

Modelos de Linguagem de Grande Escala (LLMs) recentes têm relatado alta precisão em benchmarks de raciocínio. No entanto, ainda não está claro se os resultados observados surgem de um verdadeiro raciocínio ou de uma recordação estatística do conjunto de treinamento. Inspirado pela escada da causalidade (Pearl, 2009) e seus três níveis (associações, intervenções e contra-factuais), este artigo introduz o RE-IMAGINE, um framework para caracterizar uma hierarquia de habilidades de raciocínio em LLMs, juntamente com um pipeline automatizado para gerar variações de problemas em diferentes níveis da hierarquia. Ao alterar problemas em uma representação simbólica intermediária, o RE-IMAGINE gera arbitrariamente muitos problemas que não são solucionáveis apenas por memorização. Além disso, o framework é geral e pode funcionar em diversos domínios de raciocínio, incluindo matemática, código e lógica. Demonstramos nosso framework em quatro benchmarks amplamente utilizados para avaliar várias famílias de LLMs, e observamos reduções no desempenho quando os modelos são questionados com variações de problemas. Essas avaliações indicam um grau de dependência na recordação estatística para o desempenho passado e abrem portas para pesquisas adicionais visando habilidades ao longo da hierarquia de raciocínio.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning benchmarks. However, it is still unclear whether the observed results arise from true reasoning or from statistical recall of the training set. Inspired by the ladder of causation (Pearl, 2009) and its three levels (associations, interventions and counterfactuals), this paper introduces RE-IMAGINE, a framework to characterize a hierarchy of reasoning ability in LLMs, alongside an automated pipeline to generate problem variations at different levels of the hierarchy. By altering problems in an intermediate symbolic representation, RE-IMAGINE generates arbitrarily many problems that are not solvable using memorization alone. Moreover, the framework is general and can work across reasoning domains, including math, code, and logic. We demonstrate our framework on four widely-used benchmarks to evaluate several families of LLMs, and observe reductions in performance when the models are queried with problem variations. These assessments indicate a degree of reliance on statistical recall for past performance, and open the door to further research targeting skills across the reasoning hierarchy.
PDF53June 20, 2025