THOR: Werkzeugintegrierte hierarchische Optimierung durch RL für mathematisches Denken

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte im mathematischen Denken erzielt, kämpfen jedoch weiterhin mit hochpräzisen Aufgaben wie numerischer Berechnung und formaler symbolischer Manipulation. Die Integration externer Tools hat sich als vielversprechender Ansatz erwiesen, um diese Lücke zu schließen. Trotz jüngster Fortschritte haben bestehende Methoden mit drei zentralen Herausforderungen zu kämpfen: der Erstellung von Tool-integrierten Denkdaten, der feingranularen Optimierung und der Verbesserung der Inferenz. Um diese Einschränkungen zu überwinden, schlagen wir THOR (Tool-Integrated Hierarchical Optimization via RL) vor. Zunächst führen wir TIRGen ein, eine Multi-Agenten-Actor-Critic-basierte Pipeline zur Erstellung hochwertiger Datensätze von Tool-integrierten Denkpfaden, die sich an der Policy ausrichten und gut über verschiedene Modelle hinweg verallgemeinern. Zweitens führen wir eine RL-Strategie ein, die eine feingranulare hierarchische Optimierung durchführt, indem sie sowohl die Problemlösung auf Trajektorienebene als auch die Codegenerierung auf Schrittebene gemeinsam optimiert. Dies wird durch unsere zentrale Erkenntnis motiviert, dass der Erfolg eines Zwischen-Tool-Aufrufs ein starker Indikator für die Korrektheit der endgültigen Antwort ist. Schließlich integriert THOR einen Selbstkorrekturmechanismus, der unmittelbares Tool-Feedback nutzt, um fehlerhafte Denkpfade während der Inferenz dynamisch zu überarbeiten. Unser Ansatz zeigt eine starke Generalisierung über verschiedene Modelle hinweg und funktioniert sowohl in Denk- als auch in Nicht-Denkmodellen effektiv. Er erzielt außerdem state-of-the-art Leistungen für Modelle ähnlicher Größe auf mehreren mathematischen Benchmarks und liefert gleichzeitig konsistente Verbesserungen auf Code-Benchmarks. Unser Code wird öffentlich unter https://github.com/JingMog/THOR verfügbar sein.

English

Large Language Models (LLMs) have made remarkable progress in mathematical reasoning, but still continue to struggle with high-precision tasks like numerical computation and formal symbolic manipulation. Integrating external tools has emerged as a promising approach to bridge this gap. Despite recent advances, existing methods struggle with three key challenges: constructing tool-integrated reasoning data, performing fine-grained optimization, and enhancing inference. To overcome these limitations, we propose THOR (Tool-Integrated Hierarchical Optimization via RL). First, we introduce TIRGen, a multi-agent actor-critic-based pipeline for constructing high-quality datasets of tool-integrated reasoning paths, aligning with the policy and generalizing well across diverse models. Second, to perform fine-grained hierarchical optimization, we introduce an RL strategy that jointly optimizes for both trajectory-level problem solving and step-level code generation. This is motivated by our key insight that the success of an intermediate tool call is a strong predictor of the final answer's correctness. Finally, THOR incorporates a self-correction mechanism that leverages immediate tool feedback to dynamically revise erroneous reasoning paths during inference. Our approach demonstrates strong generalization across diverse models, performing effectively in both reasoning and non-reasoning models. It further achieves state-of-the-art performance for models of a similar scale on multiple mathematical benchmarks, while also delivering consistent improvements on code benchmarks. Our code will be publicly available at https://github.com/JingMog/THOR.

THOR: Werkzeugintegrierte hierarchische Optimierung durch RL für mathematisches Denken

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

papers.abstract

Support