ReTool: Reinforcement Learning voor Strategisch Gebruik van Tools in LLM's
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
April 15, 2025
Auteurs: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
cs.AI
Samenvatting
Hoewel redeneermodellen (bijv. DeepSeek R1) die getraind zijn met reinforcement learning (RL), uitblinken in tekstueel redeneren, hebben ze moeite met scenario's die gestructureerd probleemoplossen vereisen, zoals geometrisch redeneren, beknopte berekeningen of het oplossen van complexe vergelijkingen – gebieden waar computationele tools zoals code-interpreters (CI) duidelijke voordelen laten zien. Om deze kloof te overbruggen, stellen we ReTool voor, dat langdurig redeneren versterkt met tool-geïntegreerd leren, inclusief twee belangrijke kenmerken: (1) dynamische afwisseling van real-time code-uitvoering binnen natuurlijke taalredeneerprocessen, en (2) een geautomatiseerd RL-paradigma dat beleidsuitvoeringen mogelijk maakt met real-time code-uitvoering over meerdere stappen en het model leert wanneer en hoe tools aan te roepen op basis van uitkomstfeedback. ReTool maakt gebruik van een systematisch trainingsframework, beginnend met synthetische cold-start data-generatie om code-aangevulde langdurige redeneersporen te produceren voor het finetunen van basismodellen. Vervolgens benut RL-training taakuitkomsten als beloningen om het toolgebruiksstrategie van het model iteratief te verfijnen, waardoor het autonoom optimale toolaanroepingspatronen kan ontdekken zonder menselijke voorkennis. Experimenten op de uitdagende MATH Olympiad-benchmark AIME tonen de superioriteit van ReTool aan: Ons 32B-model behaalt 67% nauwkeurigheid met 400 trainingsstappen, wat zowel in efficiëntie als prestaties beter is dan de tekstgebaseerde RL-baseline (40% nauwkeurigheid, 1080 stappen). Opmerkelijk is dat ReTool-32B in uitgebreide instellingen 72,5% nauwkeurigheid behaalt, wat OpenAI's o1-preview met 27,9% overtreft. Verdere analyse onthult opkomende gedragingen zoals code-zelfcorrectie, wat een 'aha-moment' signaleert waarin het model autonoom adaptief toolgebruik beheerst. Deze bevindingen benadrukken de belofte van uitkomstgedreven toolintegratie voor het bevorderen van complex wiskundig redeneren en bieden nieuwe inzichten in hybride neuro-symbolische systemen.
English
While reasoning models (e.g., DeepSeek R1) trained with reinforcement
learning (RL), excel in textual reasoning, they struggle in scenarios requiring
structured problem-solving, such as geometric reasoning, concise computation,
or complex equation solving-areas where computational tools like code
interpreters (CI) demonstrate distinct advantages. To bridge this gap, we
propose ReTool, which enhances long-form reasoning with tool-integrated
learning, including two key features: (1) dynamic interleaving of real-time
code execution within natural language reasoning processes, and (2) an
automated RL paradigm that allows policy rollouts with multi-turn real-time
code execution and teaches the model in learning when and how to invoke tools
based on outcome feedback. ReTool employs a systematic training framework,
beginning with synthetic cold-start data generation to produce code-augmented
long-form reasoning traces for fine-tuning base models. Subsequent RL training
leverages task outcomes as rewards to iteratively refine the model's tool use
strategy, enabling autonomous discovery of optimal tool invocation patterns
without human priors. Experiments on the challenging MATH Olympiad benchmark
AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with
400 training steps, outperforming text-based RL baseline (40% accuracy, 1080
steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5%
accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further
analysis reveals emergent behaviors such as code self-correction, signaling an
''aha moment'' in which the model autonomously masters adaptive tool use. These
findings highlight the promise of outcome-driven tool integration for advancing
complex mathematical reasoning and offer new insights into hybrid
neuro-symbolic systems.Summary
AI-Generated Summary