ChatPaper.aiChatPaper

ReTool: Apprendimento per Rinforzo per l'Uso Strategico di Strumenti nei Modelli Linguistici

ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

April 15, 2025
Autori: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
cs.AI

Abstract

Mentre i modelli di ragionamento (ad esempio, DeepSeek R1) addestrati con l'apprendimento per rinforzo (RL) eccellono nel ragionamento testuale, faticano in scenari che richiedono risoluzione strutturata di problemi, come il ragionamento geometrico, calcoli concisi o la risoluzione di equazioni complesse, aree in cui strumenti computazionali come gli interpreti di codice (CI) dimostrano vantaggi distintivi. Per colmare questa lacuna, proponiamo ReTool, che migliora il ragionamento a lungo termine con l'apprendimento integrato di strumenti, includendo due caratteristiche chiave: (1) l'intercalazione dinamica dell'esecuzione di codice in tempo reale all'interno dei processi di ragionamento in linguaggio naturale, e (2) un paradigma RL automatizzato che consente rollout di politiche con esecuzione di codice multi-turn in tempo reale e insegna al modello quando e come invocare strumenti basandosi sul feedback dei risultati. ReTool impiega un framework di addestramento sistematico, iniziando con la generazione di dati sintetici di avvio a freddo per produrre tracce di ragionamento a lungo termine aumentate con codice per il fine-tuning dei modelli base. Il successivo addestramento RL sfrutta i risultati delle attività come ricompense per affinare iterativamente la strategia di utilizzo degli strumenti del modello, consentendo la scoperta autonoma di modelli ottimali di invocazione degli strumenti senza presupposti umani. Esperimenti sul benchmark impegnativo delle Olimpiadi Matematiche AIME dimostrano la superiorità di ReTool: il nostro modello da 32B raggiunge il 67% di accuratezza con 400 passi di addestramento, superando in efficienza e prestazioni la baseline RL basata su testo (40% di accuratezza, 1080 passi). Notevolmente, ReTool-32B raggiunge il 72,5% di accuratezza in impostazioni estese, superando di 27,9% l'o1-preview di OpenAI. Ulteriori analisi rivelano comportamenti emergenti come l'autocorrezione del codice, segnalando un "momento di intuizione" in cui il modello padroneggia autonomamente l'uso adattivo degli strumenti. Questi risultati evidenziano la promessa dell'integrazione di strumenti guidata dai risultati per avanzare il ragionamento matematico complesso e offrono nuove intuizioni sui sistemi neuro-simbolici ibridi.
English
While reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-areas where computational tools like code interpreters (CI) demonstrate distinct advantages. To bridge this gap, we propose ReTool, which enhances long-form reasoning with tool-integrated learning, including two key features: (1) dynamic interleaving of real-time code execution within natural language reasoning processes, and (2) an automated RL paradigm that allows policy rollouts with multi-turn real-time code execution and teaches the model in learning when and how to invoke tools based on outcome feedback. ReTool employs a systematic training framework, beginning with synthetic cold-start data generation to produce code-augmented long-form reasoning traces for fine-tuning base models. Subsequent RL training leverages task outcomes as rewards to iteratively refine the model's tool use strategy, enabling autonomous discovery of optimal tool invocation patterns without human priors. Experiments on the challenging MATH Olympiad benchmark AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with 400 training steps, outperforming text-based RL baseline (40% accuracy, 1080 steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5% accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further analysis reveals emergent behaviors such as code self-correction, signaling an ''aha moment'' in which the model autonomously masters adaptive tool use. These findings highlight the promise of outcome-driven tool integration for advancing complex mathematical reasoning and offer new insights into hybrid neuro-symbolic systems.

Summary

AI-Generated Summary

PDF604April 17, 2025