Apprendimento per Rinforzo In-Contesto per l'Utilizzo di Strumenti nei Modelli Linguistici di Grande Dimensione
In-Context Reinforcement Learning for Tool Use in Large Language Models
March 9, 2026
Autori: Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh
cs.AI
Abstract
Sebbene i grandi modelli linguistici (LLM) mostrino notevoli capacità di ragionamento, le loro prestazioni in compiti complessi sono spesso limitate dai vincoli della loro conoscenza interna. Un approccio promettente per superare questa sfida consiste nell'arrechire questi modelli con strumenti esterni – come interpreti Python per calcoli matematici o motori di ricerca per recuperare informazioni fattuali. Tuttavia, abilitare i modelli a utilizzare efficacemente questi strumenti rimane una sfida significativa. I metodi esistenti si basano tipicamente su pipeline a freddo che iniziano con l'addestramento supervisionato (SFT), seguito dall'apprendimento per rinforzo (RL). Questi approcci richiedono spesso grandi quantità di dati etichettati per l'SFT, i cui costi di annotazione o sintesi sono elevati. In questo lavoro, proponiamo l'In-Context Reinforcement Learning (ICRL), un framework basato esclusivamente su RL che elimina la necessità dell'SFT sfruttando il prompting few-shot durante la fase di rollout del RL. Nello specifico, ICRL introduce esempi in-context all'interno dei prompt di rollout per insegnare al modello come richiamare strumenti esterni. Inoltre, con il progredire dell'addestramento, il numero di esempi in-context viene gradualmente ridotto, fino a raggiungere un'impostazione zero-shot in cui il modello impara a chiamare gli strumenti in modo autonomo. Abbiamo condotto esperimenti approfonditi su una serie di benchmark di ragionamento e utilizzo di strumenti. I risultati mostrano che ICRL raggiunge prestazioni all'avanguardia, dimostrando la sua efficacia come alternativa scalabile ed efficiente dal punto di vista dei dati alle tradizionali pipeline basate su SFT.
English
While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.