RE-IMAGINE: Синтез символических эталонов для оценки способности к рассуждению
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
June 18, 2025
Авторы: Xinnuo Xu, Rachel Lawrence, Kshitij Dubey, Atharva Pandey, Risa Ueno, Fabian Falck, Aditya V. Nori, Rahul Sharma, Amit Sharma, Javier Gonzalez
cs.AI
Аннотация
Современные крупные языковые модели (LLM) демонстрируют высокую точность на тестах, оценивающих способность к рассуждению. Однако до сих пор неясно, являются ли наблюдаемые результаты следствием истинного рассуждения или статистического воспроизведения данных из обучающего набора. Вдохновленные лестницей причинности (Pearl, 2009) и её тремя уровнями (ассоциации, вмешательства и контрфактические рассуждения), в данной статье представлен RE-IMAGINE — фреймворк для характеристики иерархии способностей к рассуждению в LLM, а также автоматизированный процесс генерации вариаций задач на разных уровнях этой иерархии. Путем изменения задач в промежуточном символическом представлении RE-IMAGINE создает произвольное количество задач, которые невозможно решить с помощью простого запоминания. Более того, фреймворк является универсальным и может применяться в различных областях рассуждений, включая математику, программирование и логику. Мы демонстрируем наш фреймворк на четырех широко используемых тестах для оценки нескольких семейств LLM и наблюдаем снижение производительности, когда модели сталкиваются с вариациями задач. Эти оценки указывают на определенную зависимость от статистического воспроизведения данных для достижения прошлых результатов и открывают путь для дальнейших исследований, направленных на развитие навыков на всех уровнях иерархии рассуждений.
English
Recent Large Language Models (LLMs) have reported high accuracy on reasoning
benchmarks. However, it is still unclear whether the observed results arise
from true reasoning or from statistical recall of the training set. Inspired by
the ladder of causation (Pearl, 2009) and its three levels (associations,
interventions and counterfactuals), this paper introduces RE-IMAGINE, a
framework to characterize a hierarchy of reasoning ability in LLMs, alongside
an automated pipeline to generate problem variations at different levels of the
hierarchy. By altering problems in an intermediate symbolic representation,
RE-IMAGINE generates arbitrarily many problems that are not solvable using
memorization alone. Moreover, the framework is general and can work across
reasoning domains, including math, code, and logic. We demonstrate our
framework on four widely-used benchmarks to evaluate several families of LLMs,
and observe reductions in performance when the models are queried with problem
variations. These assessments indicate a degree of reliance on statistical
recall for past performance, and open the door to further research targeting
skills across the reasoning hierarchy.