ChatPaper.aiChatPaper

ReTool: Reinforcement Learning für den strategischen Einsatz von Werkzeugen in LLMs

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

April 15, 2025
Autoren: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
cs.AI

Zusammenfassung

Während auf Verstärkungslernen (Reinforcement Learning, RL) trainierte Reasoning-Modelle (z. B. DeepSeek R1) in textbasiertem Reasoning hervorragende Leistungen erbringen, haben sie Schwierigkeiten in Szenarien, die strukturiertes Problemlösen erfordern, wie geometrisches Reasoning, präzise Berechnungen oder das Lösen komplexer Gleichungen – Bereiche, in denen rechnerische Werkzeuge wie Code-Interpreter (CI) deutliche Vorteile zeigen. Um diese Lücke zu schließen, schlagen wir ReTool vor, das langformiges Reasoning durch toolintegriertes Lernen verbessert und zwei Schlüsselmerkmale umfasst: (1) die dynamische Verschachtelung von Echtzeit-Code-Ausführung innerhalb natürlicher Sprachverarbeitungsprozesse und (2) ein automatisiertes RL-Paradigma, das Policy-Rollouts mit mehrstufiger Echtzeit-Code-Ausführung ermöglicht und dem Modell beibringt, wann und wie Werkzeuge basierend auf Ergebnisrückmeldungen aufgerufen werden. ReTool verwendet ein systematisches Trainingsframework, das mit der Erzeugung synthetischer Cold-Start-Daten beginnt, um code-augmentierte langformige Reasoning-Traces für die Feinabstimmung von Basismodellen zu erzeugen. Das anschließende RL-Training nutzt Aufgabenresultate als Belohnungen, um die Werkzeugnutzungsstrategie des Modells iterativ zu verfeinern, wodurch die autonome Entdeckung optimaler Werkzeugaufrufmuster ohne menschliche Vorannahmen ermöglicht wird. Experimente auf dem anspruchsvollen MATH-Olympiade-Benchmark AIME demonstrieren die Überlegenheit von ReTool: Unser 32B-Modell erreicht eine Genauigkeit von 67 % mit 400 Trainingsschritten und übertrifft damit textbasierte RL-Baselines (40 % Genauigkeit, 1080 Schritte) in Effizienz und Leistung. Bemerkenswerterweise erreicht ReTool-32B in erweiterten Einstellungen eine Genauigkeit von 72,5 % und übertrifft damit OpenAI's o1-preview um 27,9 %. Weitere Analysen zeigen emergente Verhaltensweisen wie Code-Selbstkorrektur, die auf einen „Aha-Moment“ hinweisen, in dem das Modell die adaptive Werkzeugnutzung autonom beherrscht. Diese Ergebnisse unterstreichen das Potenzial ergebnisgetriebener Werkzeugintegration für die Weiterentwicklung komplexen mathematischen Reasonings und bieten neue Einblicke in hybride neuro-symbolische Systeme.
English
While reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-areas where computational tools like code interpreters (CI) demonstrate distinct advantages. To bridge this gap, we propose ReTool, which enhances long-form reasoning with tool-integrated learning, including two key features: (1) dynamic interleaving of real-time code execution within natural language reasoning processes, and (2) an automated RL paradigm that allows policy rollouts with multi-turn real-time code execution and teaches the model in learning when and how to invoke tools based on outcome feedback. ReTool employs a systematic training framework, beginning with synthetic cold-start data generation to produce code-augmented long-form reasoning traces for fine-tuning base models. Subsequent RL training leverages task outcomes as rewards to iteratively refine the model's tool use strategy, enabling autonomous discovery of optimal tool invocation patterns without human priors. Experiments on the challenging MATH Olympiad benchmark AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with 400 training steps, outperforming text-based RL baseline (40% accuracy, 1080 steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5% accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further analysis reveals emergent behaviors such as code self-correction, signaling an ''aha moment'' in which the model autonomously masters adaptive tool use. These findings highlight the promise of outcome-driven tool integration for advancing complex mathematical reasoning and offer new insights into hybrid neuro-symbolic systems.

Summary

AI-Generated Summary

PDF604April 17, 2025