ChatPaper.aiChatPaper

THOR: 数学的推論のためのRLによるツール統合型階層的最適化

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

September 17, 2025
著者: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI

要旨

大規模言語モデル(LLMs)は数学的推論において著しい進歩を遂げてきたが、数値計算や形式的な記号操作といった高精度なタスクでは依然として苦戦を強いられている。このギャップを埋めるための有望なアプローチとして、外部ツールの統合が注目されている。最近の進展にもかかわらず、既存の手法は3つの主要な課題に直面している:ツール統合型推論データの構築、細粒度の最適化、推論の強化である。これらの制限を克服するため、我々はTHOR(Tool-Integrated Hierarchical Optimization via RL)を提案する。まず、TIRGenを導入する。これは、多エージェントのアクター・クリティックに基づくパイプラインであり、ツール統合型推論パスの高品質なデータセットを構築し、ポリシーに沿って多様なモデル間で良好に汎化する。次に、細粒度の階層的最適化を実現するため、軌跡レベルの問題解決とステップレベルのコード生成を同時に最適化するRL戦略を導入する。これは、中間ツール呼び出しの成功が最終的な答えの正しさを強く予測するという我々の重要な洞察に基づいている。最後に、THORは、即時のツールフィードバックを活用して推論中に誤った推論パスを動的に修正する自己修正メカニズムを組み込んでいる。我々のアプローチは、多様なモデル間で強力な汎化能力を示し、推論モデルと非推論モデルの両方で効果的に機能する。さらに、類似スケールのモデルにおいて、複数の数学的ベンチマークで最先端の性能を達成し、コードベンチマークでも一貫した改善をもたらす。我々のコードはhttps://github.com/JingMog/THORで公開予定である。
English
Large Language Models (LLMs) have made remarkable progress in mathematical reasoning, but still continue to struggle with high-precision tasks like numerical computation and formal symbolic manipulation. Integrating external tools has emerged as a promising approach to bridge this gap. Despite recent advances, existing methods struggle with three key challenges: constructing tool-integrated reasoning data, performing fine-grained optimization, and enhancing inference. To overcome these limitations, we propose THOR (Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen, a multi-agent actor-critic-based pipeline for constructing high-quality datasets of tool-integrated reasoning paths, aligning with the policy and generalizing well across diverse models. Second, to perform fine-grained hierarchical optimization, we introduce an RL strategy that jointly optimizes for both trajectory-level problem solving and step-level code generation. This is motivated by our key insight that the success of an intermediate tool call is a strong predictor of the final answer's correctness. Finally, THOR incorporates a self-correction mechanism that leverages immediate tool feedback to dynamically revise erroneous reasoning paths during inference. Our approach demonstrates strong generalization across diverse models, performing effectively in both reasoning and non-reasoning models. It further achieves state-of-the-art performance for models of a similar scale on multiple mathematical benchmarks, while also delivering consistent improvements on code benchmarks. Our code will be publicly available at https://github.com/JingMog/THOR.
PDF61September 18, 2025