ChatPaper.aiChatPaper

数学的推論の適応化

Making Mathematical Reasoning Adaptive

October 6, 2025
著者: Zhejian Lai, Xiang Geng, Zhijun Wang, Yang Bai, Jiahuan Li, Rongxiang Weng, Jingang Wang, Xuezhi Cao, Xunliang Cai, Shujian Huang
cs.AI

要旨

数学的推論能力は、大規模言語モデル(LLM)の知能を測る主要な指標である。しかし、既存のLLMは頑健性と汎化性の欠如を示している。本論文では、これらの欠点を表面的な特徴から答えを導く「偽りの推論」に起因すると位置づける。この課題に対処するため、我々は適応的推論を可能にするAdaRフレームワークを提案する。AdaRでは、モデルが問題解決の論理に基づいて答えを導くようにする。具体的には、変数の値を変化させることで論理的に等価なクエリを合成し、これらのデータに対してRLVRを用いてモデルを訓練し、偽りの論理を抑制しながら適応的論理を促進する。データ品質を向上させるため、元のクエリから問題解決の論理を抽出し、コード実行によって対応する答えを生成した後、健全性チェックを適用する。実験結果は、AdaRが頑健性と汎化性を向上させ、データ効率を維持しながら数学的推論能力を大幅に改善することを示している。分析によれば、データ合成とRLVRは協調的に機能し、LLMにおける適応的推論を可能にしている。その後の分析から、重要な要因の影響やLLMへの指示適用性に関する主要な設計洞察が得られた。本プロジェクトはhttps://github.com/LaiZhejian/AdaRで公開されている。
English
Mathematical reasoning is a primary indicator of large language models (LLMs) intelligence. However, existing LLMs exhibit failures of robustness and generalization. This paper attributes these deficiencies to spurious reasoning, i.e., producing answers from superficial features. To address this challenge, we propose the AdaR framework to enable adaptive reasoning, wherein models rely on problem-solving logic to produce answers. AdaR synthesizes logically equivalent queries by varying variable values, and trains models with RLVR on these data to penalize spurious logic while encouraging adaptive logic. To improve data quality, we extract the problem-solving logic from the original query and generate the corresponding answer by code execution, then apply a sanity check. Experimental results demonstrate that AdaR improves robustness and generalization, achieving substantial improvement in mathematical reasoning while maintaining high data efficiency. Analysis indicates that data synthesis and RLVR function in a coordinated manner to enable adaptive reasoning in LLMs. Subsequent analyses derive key design insights into the effect of critical factors and the applicability to instruct LLMs. Our project is available at https://github.com/LaiZhejian/AdaR
PDF223October 14, 2025