THOR: Werkzeugintegrierte hierarchische Optimierung durch RL für mathematisches Denken
THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
September 17, 2025
papers.authors: Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Jun Du, Quan Liu, Jianqing Gao
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im mathematischen Denken erzielt, kämpfen jedoch weiterhin mit hochpräzisen Aufgaben wie numerischer Berechnung und formaler symbolischer Manipulation. Die Integration externer Tools hat sich als vielversprechender Ansatz erwiesen, um diese Lücke zu schließen. Trotz jüngster Fortschritte haben bestehende Methoden mit drei zentralen Herausforderungen zu kämpfen: der Erstellung von Tool-integrierten Denkdaten, der feingranularen Optimierung und der Verbesserung der Inferenz. Um diese Einschränkungen zu überwinden, schlagen wir THOR (Tool-Integrated Hierarchical Optimization via RL) vor. Zunächst führen wir TIRGen ein, eine Multi-Agenten-Actor-Critic-basierte Pipeline zur Erstellung hochwertiger Datensätze von Tool-integrierten Denkpfaden, die sich an der Policy ausrichten und gut über verschiedene Modelle hinweg verallgemeinern. Zweitens führen wir eine RL-Strategie ein, die eine feingranulare hierarchische Optimierung durchführt, indem sie sowohl die Problemlösung auf Trajektorienebene als auch die Codegenerierung auf Schrittebene gemeinsam optimiert. Dies wird durch unsere zentrale Erkenntnis motiviert, dass der Erfolg eines Zwischen-Tool-Aufrufs ein starker Indikator für die Korrektheit der endgültigen Antwort ist. Schließlich integriert THOR einen Selbstkorrekturmechanismus, der unmittelbares Tool-Feedback nutzt, um fehlerhafte Denkpfade während der Inferenz dynamisch zu überarbeiten. Unser Ansatz zeigt eine starke Generalisierung über verschiedene Modelle hinweg und funktioniert sowohl in Denk- als auch in Nicht-Denkmodellen effektiv. Er erzielt außerdem state-of-the-art Leistungen für Modelle ähnlicher Größe auf mehreren mathematischen Benchmarks und liefert gleichzeitig konsistente Verbesserungen auf Code-Benchmarks. Unser Code wird öffentlich unter https://github.com/JingMog/THOR verfügbar sein.
English
Large Language Models (LLMs) have made remarkable progress in mathematical
reasoning, but still continue to struggle with high-precision tasks like
numerical computation and formal symbolic manipulation. Integrating external
tools has emerged as a promising approach to bridge this gap. Despite recent
advances, existing methods struggle with three key challenges: constructing
tool-integrated reasoning data, performing fine-grained optimization, and
enhancing inference. To overcome these limitations, we propose THOR
(Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen,
a multi-agent actor-critic-based pipeline for constructing high-quality
datasets of tool-integrated reasoning paths, aligning with the policy and
generalizing well across diverse models. Second, to perform fine-grained
hierarchical optimization, we introduce an RL strategy that jointly optimizes
for both trajectory-level problem solving and step-level code generation. This
is motivated by our key insight that the success of an intermediate tool call
is a strong predictor of the final answer's correctness. Finally, THOR
incorporates a self-correction mechanism that leverages immediate tool feedback
to dynamically revise erroneous reasoning paths during inference. Our approach
demonstrates strong generalization across diverse models, performing
effectively in both reasoning and non-reasoning models. It further achieves
state-of-the-art performance for models of a similar scale on multiple
mathematical benchmarks, while also delivering consistent improvements on code
benchmarks. Our code will be publicly available at
https://github.com/JingMog/THOR.