THOR: Gereedschap-geïntegreerde Hiërarchische Optimalisatie via RL voor Wiskundig Redeneren
THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
September 17, 2025
Auteurs: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in wiskundig redeneren, maar blijven moeite houden met taken die hoge precisie vereisen, zoals numerieke berekeningen en formele symbolische manipulatie. Het integreren van externe tools is naar voren gekomen als een veelbelovende aanpak om deze kloof te overbruggen. Ondanks recente vooruitgang worstelen bestaande methoden met drie belangrijke uitdagingen: het construeren van tool-geïntegreerde redeneergegevens, het uitvoeren van fijnmazige optimalisatie, en het verbeteren van inferentie. Om deze beperkingen te overwinnen, stellen we THOR voor (Tool-Integrated Hierarchical Optimization via RL). Ten eerste introduceren we TIRGen, een multi-agent actor-critic-gebaseerde pijplijn voor het construeren van hoogwaardige datasets van tool-geïntegreerde redeneerpaden, die aansluiten bij het beleid en goed generaliseren over diverse modellen. Ten tweede introduceren we, om fijnmazige hiërarchische optimalisatie uit te voeren, een RL-strategie die zowel optimaliseert voor trajectniveau probleemoplossing als stapniveau codegeneratie. Dit wordt gemotiveerd door ons inzicht dat het succes van een tussenliggende toolaanroep een sterke voorspeller is van de juistheid van het uiteindelijke antwoord. Tot slot bevat THOR een zelfcorrectiemechanisme dat directe toolfeedback benut om foutieve redeneerpaden dynamisch te herzien tijdens inferentie. Onze aanpak toont sterke generalisatie over diverse modellen, waarbij effectief wordt gepresteerd in zowel redenerende als niet-redenerende modellen. Het behaalt verder state-of-the-art prestaties voor modellen van vergelijkbare schaal op meerdere wiskundige benchmarks, terwijl het ook consistente verbeteringen oplevert op codebenchmarks. Onze code zal publiekelijk beschikbaar zijn op https://github.com/JingMog/THOR.
English
Large Language Models (LLMs) have made remarkable progress in mathematical
reasoning, but still continue to struggle with high-precision tasks like
numerical computation and formal symbolic manipulation. Integrating external
tools has emerged as a promising approach to bridge this gap. Despite recent
advances, existing methods struggle with three key challenges: constructing
tool-integrated reasoning data, performing fine-grained optimization, and
enhancing inference. To overcome these limitations, we propose THOR
(Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen,
a multi-agent actor-critic-based pipeline for constructing high-quality
datasets of tool-integrated reasoning paths, aligning with the policy and
generalizing well across diverse models. Second, to perform fine-grained
hierarchical optimization, we introduce an RL strategy that jointly optimizes
for both trajectory-level problem solving and step-level code generation. This
is motivated by our key insight that the success of an intermediate tool call
is a strong predictor of the final answer's correctness. Finally, THOR
incorporates a self-correction mechanism that leverages immediate tool feedback
to dynamically revise erroneous reasoning paths during inference. Our approach
demonstrates strong generalization across diverse models, performing
effectively in both reasoning and non-reasoning models. It further achieves
state-of-the-art performance for models of a similar scale on multiple
mathematical benchmarks, while also delivering consistent improvements on code
benchmarks. Our code will be publicly available at
https://github.com/JingMog/THOR.