ReTool : Apprentissage par renforcement pour l'utilisation stratégique d'outils dans les LLM
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
April 15, 2025
Auteurs: Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong
cs.AI
Résumé
Alors que les modèles de raisonnement (par exemple, DeepSeek R1) entraînés par apprentissage par renforcement (RL) excellent dans le raisonnement textuel, ils peinent dans les scénarios nécessitant une résolution de problèmes structurée, tels que le raisonnement géométrique, les calculs concis ou la résolution d'équations complexes - des domaines où les outils informatiques comme les interpréteurs de code (CI) démontrent des avantages distincts. Pour combler cette lacune, nous proposons ReTool, qui améliore le raisonnement long format grâce à un apprentissage intégrant des outils, avec deux fonctionnalités clés : (1) l'intercalage dynamique de l'exécution de code en temps réel dans les processus de raisonnement en langage naturel, et (2) un paradigme RL automatisé permettant des déploiements de politiques avec une exécution de code multi-tours en temps réel, enseignant au modèle quand et comment invoquer des outils en fonction des retours d'expérience. ReTool utilise un cadre d'entraînement systématique, commençant par la génération de données synthétiques de démarrage à froid pour produire des traces de raisonnement long format augmentées de code, afin d'affiner les modèles de base. L'entraînement RL ultérieur exploite les résultats des tâches comme récompenses pour affiner itérativement la stratégie d'utilisation des outils du modèle, permettant la découverte autonome de modèles optimaux d'invocation d'outils sans a priori humains. Les expériences sur le benchmark exigeant des Olympiades de mathématiques AIME démontrent la supériorité de ReTool : Notre modèle 32B atteint 67% de précision avec 400 étapes d'entraînement, surpassant la baseline RL basée sur le texte (40% de précision, 1080 étapes) en efficacité et performance. Remarquablement, ReTool-32B atteint 72,5% de précision dans des configurations étendues, surpassant OpenAI's o1-preview de 27,9%. Une analyse plus approfondie révèle des comportements émergents tels que l'auto-correction de code, signalant un "moment eurêka" où le modèle maîtrise de manière autonome l'utilisation adaptative des outils. Ces résultats mettent en lumière le potentiel de l'intégration d'outils pilotée par les résultats pour faire progresser le raisonnement mathématique complexe et offrent de nouvelles perspectives sur les systèmes hybrides neuro-symboliques.
English
While reasoning models (e.g., DeepSeek R1) trained with reinforcement
learning (RL), excel in textual reasoning, they struggle in scenarios requiring
structured problem-solving, such as geometric reasoning, concise computation,
or complex equation solving-areas where computational tools like code
interpreters (CI) demonstrate distinct advantages. To bridge this gap, we
propose ReTool, which enhances long-form reasoning with tool-integrated
learning, including two key features: (1) dynamic interleaving of real-time
code execution within natural language reasoning processes, and (2) an
automated RL paradigm that allows policy rollouts with multi-turn real-time
code execution and teaches the model in learning when and how to invoke tools
based on outcome feedback. ReTool employs a systematic training framework,
beginning with synthetic cold-start data generation to produce code-augmented
long-form reasoning traces for fine-tuning base models. Subsequent RL training
leverages task outcomes as rewards to iteratively refine the model's tool use
strategy, enabling autonomous discovery of optimal tool invocation patterns
without human priors. Experiments on the challenging MATH Olympiad benchmark
AIME demonstrate ReTool's superiority: Our 32B model achieves 67% accuracy with
400 training steps, outperforming text-based RL baseline (40% accuracy, 1080
steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5%
accuracy in extended settings, surpassing OpenAI's o1-preview by 27.9%. Further
analysis reveals emergent behaviors such as code self-correction, signaling an
''aha moment'' in which the model autonomously masters adaptive tool use. These
findings highlight the promise of outcome-driven tool integration for advancing
complex mathematical reasoning and offer new insights into hybrid
neuro-symbolic systems.Summary
AI-Generated Summary