ChatPaper.aiChatPaper

RE-IMAGINE: 추론 평가를 위한 기호적 벤치마크 합성

RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation

June 18, 2025
저자: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI

초록

최근의 대형 언어 모델(LLMs)은 추론 벤치마크에서 높은 정확도를 보고하고 있습니다. 그러나 이러한 결과가 진정한 추론에서 비롯된 것인지, 아니면 훈련 세트의 통계적 기억에서 비롯된 것인지는 여전히 불분명합니다. 인과관계의 사다리(Pearl, 2009)와 그 세 가지 수준(연관성, 개입, 반사실적 사고)에서 영감을 받아, 본 논문은 LLMs의 추론 능력 계층을 특성화하는 RE-IMAGINE 프레임워크와 함께, 계층의 다양한 수준에서 문제 변형을 자동으로 생성하는 파이프라인을 소개합니다. 중간 기호 표현을 통해 문제를 변형함으로써, RE-IMAGINE은 단순한 기억만으로는 해결할 수 없는 무수히 많은 문제를 생성합니다. 또한, 이 프레임워크는 일반적이며 수학, 코드, 논리 등 다양한 추론 영역에서 작동할 수 있습니다. 우리는 이 프레임워크를 널리 사용되는 네 가지 벤치마크에 적용하여 여러 LLMs 계열을 평가하고, 문제 변형으로 질의했을 때 모델의 성능이 감소하는 것을 관찰했습니다. 이러한 평가는 과거 성적에 대한 통계적 기억의 의존도를 나타내며, 추론 계층 전반에 걸친 기술을 목표로 하는 추가 연구의 문을 엽니다.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning benchmarks. However, it is still unclear whether the observed results arise from true reasoning or from statistical recall of the training set. Inspired by the ladder of causation (Pearl, 2009) and its three levels (associations, interventions and counterfactuals), this paper introduces RE-IMAGINE, a framework to characterize a hierarchy of reasoning ability in LLMs, alongside an automated pipeline to generate problem variations at different levels of the hierarchy. By altering problems in an intermediate symbolic representation, RE-IMAGINE generates arbitrarily many problems that are not solvable using memorization alone. Moreover, the framework is general and can work across reasoning domains, including math, code, and logic. We demonstrate our framework on four widely-used benchmarks to evaluate several families of LLMs, and observe reductions in performance when the models are queried with problem variations. These assessments indicate a degree of reliance on statistical recall for past performance, and open the door to further research targeting skills across the reasoning hierarchy.
PDF33June 20, 2025