수학적 추론의 적응화
Making Mathematical Reasoning Adaptive
October 6, 2025
저자: Zhejian Lai, Xiang Geng, Zhijun Wang, Yang Bai, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xuezhi Cao, Xunliang Cai, Shujian Huang
cs.AI
초록
수학적 추론은 대규모 언어 모델(LLM)의 지능을 평가하는 주요 지표입니다. 그러나 기존 LLM은 견고성과 일반화 능력에서 한계를 보입니다. 본 논문은 이러한 결함을 표면적 특징에 의존해 답을 도출하는 허위 추론(spurious reasoning)으로 설명합니다. 이 문제를 해결하기 위해, 우리는 문제 해결 논리에 기반해 답을 도출하는 적응형 추론(adaptive reasoning)을 가능하게 하는 AdaR 프레임워크를 제안합니다. AdaR은 변수 값을 변경하여 논리적으로 동등한 질의를 합성하고, 이러한 데이터에 RLVR(Reinforcement Learning with Variational Reasoning)을 적용해 허위 논리를 억제하면서 적응형 논리를 장려합니다. 데이터 품질을 개선하기 위해, 원본 질의에서 문제 해결 논리를 추출하고 코드 실행을 통해 해당 답을 생성한 후, 타당성 검사를 적용합니다. 실험 결과는 AdaR이 견고성과 일반화 능력을 향상시키며, 높은 데이터 효율성을 유지하면서 수학적 추론에서 상당한 개선을 달성함을 보여줍니다. 분석 결과에 따르면, 데이터 합성과 RLVR은 협력적으로 작동하여 LLM의 적응형 추론을 가능하게 합니다. 후속 분석을 통해 주요 설계 요소의 영향과 LLM 지시에 대한 적용 가능성에 대한 핵심 통찰을 도출했습니다. 본 프로젝트는 https://github.com/LaiZhejian/AdaR에서 확인할 수 있습니다.
English
Mathematical reasoning is a primary indicator of large language models (LLMs)
intelligence. However, existing LLMs exhibit failures of robustness and
generalization. This paper attributes these deficiencies to spurious reasoning,
i.e., producing answers from superficial features. To address this challenge,
we propose the AdaR framework to enable adaptive reasoning, wherein models rely
on problem-solving logic to produce answers. AdaR synthesizes logically
equivalent queries by varying variable values, and trains models with RLVR on
these data to penalize spurious logic while encouraging adaptive logic. To
improve data quality, we extract the problem-solving logic from the original
query and generate the corresponding answer by code execution, then apply a
sanity check. Experimental results demonstrate that AdaR improves robustness
and generalization, achieving substantial improvement in mathematical reasoning
while maintaining high data efficiency. Analysis indicates that data synthesis
and RLVR function in a coordinated manner to enable adaptive reasoning in LLMs.
Subsequent analyses derive key design insights into the effect of critical
factors and the applicability to instruct LLMs. Our project is available at
https://github.com/LaiZhejian/AdaR