Apprentissage par Renforcement en Contexte pour l'Utilisation d'Outils dans les Grands Modèles de Langage
In-Context Reinforcement Learning for Tool Use in Large Language Models
March 9, 2026
Auteurs: Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh
cs.AI
Résumé
Bien que les grands modèles de langage (LLM) présentent de solides capacités de raisonnement, leurs performances sur des tâches complexes sont souvent limitées par les contraintes de leurs connaissances internes. Une approche prometteuse pour surmonter ce défi consiste à enrichir ces modèles avec des outils externes, tels que des interpréteurs Python pour les calculs mathématiques ou des moteurs de recherche pour la récupération d'informations factuelles. Cependant, permettre aux modèles d'utiliser efficacement ces outils reste un défi majeur. Les méthodes existantes reposent généralement sur des pipelines à froid qui commencent par un fine-tuning supervisé (SFT), suivi d'un apprentissage par renforcement (RL). Ces approches nécessitent souvent de grandes quantités de données étiquetées pour le SFT, dont l'annotation ou la synthèse est coûteuse. Dans ce travail, nous proposons l'Apprentissage par Renforcement en Contexte (ICRL), un framework basé uniquement sur le RL qui élimine le besoin de SFT en exploitant l'apprentissage par quelques exemples (few-shot) pendant la phase de déploiement du RL. Plus précisément, ICRL introduit des exemples en contexte dans les invites de déploiement pour apprendre au modèle à invoquer des outils externes. De plus, au fur et à mesure de l'entraînement, le nombre d'exemples en contexte est progressivement réduit, pour finalement atteindre un contexte zéro-shot où le modèle apprend à appeler les outils de manière autonome. Nous menons des expériences approfondies sur une série de benchmarks de raisonnement et d'utilisation d'outils. Les résultats montrent qu'ICRL atteint des performances à l'état de l'art, démontrant son efficacité en tant qu'alternative évolutive et économe en données aux pipelines traditionnels basés sur le SFT.
English
While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.