THOR: Gereedschap-geïntegreerde Hiërarchische Optimalisatie via RL voor Wiskundig Redeneren

Samenvatting

Grote Taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in wiskundig redeneren, maar blijven moeite houden met taken die hoge precisie vereisen, zoals numerieke berekeningen en formele symbolische manipulatie. Het integreren van externe tools is naar voren gekomen als een veelbelovende aanpak om deze kloof te overbruggen. Ondanks recente vooruitgang worstelen bestaande methoden met drie belangrijke uitdagingen: het construeren van tool-geïntegreerde redeneergegevens, het uitvoeren van fijnmazige optimalisatie, en het verbeteren van inferentie. Om deze beperkingen te overwinnen, stellen we THOR voor (Tool-Integrated Hierarchical Optimization via RL). Ten eerste introduceren we TIRGen, een multi-agent actor-critic-gebaseerde pijplijn voor het construeren van hoogwaardige datasets van tool-geïntegreerde redeneerpaden, die aansluiten bij het beleid en goed generaliseren over diverse modellen. Ten tweede introduceren we, om fijnmazige hiërarchische optimalisatie uit te voeren, een RL-strategie die zowel optimaliseert voor trajectniveau probleemoplossing als stapniveau codegeneratie. Dit wordt gemotiveerd door ons inzicht dat het succes van een tussenliggende toolaanroep een sterke voorspeller is van de juistheid van het uiteindelijke antwoord. Tot slot bevat THOR een zelfcorrectiemechanisme dat directe toolfeedback benut om foutieve redeneerpaden dynamisch te herzien tijdens inferentie. Onze aanpak toont sterke generalisatie over diverse modellen, waarbij effectief wordt gepresteerd in zowel redenerende als niet-redenerende modellen. Het behaalt verder state-of-the-art prestaties voor modellen van vergelijkbare schaal op meerdere wiskundige benchmarks, terwijl het ook consistente verbeteringen oplevert op codebenchmarks. Onze code zal publiekelijk beschikbaar zijn op https://github.com/JingMog/THOR.

English

Large Language Models (LLMs) have made remarkable progress in mathematical reasoning, but still continue to struggle with high-precision tasks like numerical computation and formal symbolic manipulation. Integrating external tools has emerged as a promising approach to bridge this gap. Despite recent advances, existing methods struggle with three key challenges: constructing tool-integrated reasoning data, performing fine-grained optimization, and enhancing inference. To overcome these limitations, we propose THOR (Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen, a multi-agent actor-critic-based pipeline for constructing high-quality datasets of tool-integrated reasoning paths, aligning with the policy and generalizing well across diverse models. Second, to perform fine-grained hierarchical optimization, we introduce an RL strategy that jointly optimizes for both trajectory-level problem solving and step-level code generation. This is motivated by our key insight that the success of an intermediate tool call is a strong predictor of the final answer's correctness. Finally, THOR incorporates a self-correction mechanism that leverages immediate tool feedback to dynamically revise erroneous reasoning paths during inference. Our approach demonstrates strong generalization across diverse models, performing effectively in both reasoning and non-reasoning models. It further achieves state-of-the-art performance for models of a similar scale on multiple mathematical benchmarks, while also delivering consistent improvements on code benchmarks. Our code will be publicly available at https://github.com/JingMog/THOR.

THOR: Gereedschap-geïntegreerde Hiërarchische Optimalisatie via RL voor Wiskundig Redeneren

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

Samenvatting

Support