In-Context-Verstärkungslernen für Werkzeugnutzung in großen Sprachmodellen
In-Context Reinforcement Learning for Tool Use in Large Language Models
March 9, 2026
Autoren: Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh
cs.AI
Zusammenfassung
Obwohl große Sprachmodelle (LLMs) über starke Fähigkeiten im logischen Denken verfügen, wird ihre Leistung bei komplexen Aufgaben häufig durch die Grenzen ihres internen Wissens eingeschränkt. Ein vielversprechender Ansatz zur Überwindung dieser Herausforderung ist die Erweiterung dieser Modelle um externe Werkzeuge – wie Python-Interpreter für mathematische Berechnungen oder Suchmaschinen zum Abruf faktischer Informationen. Die Fähigkeit dieser Modelle, diese Werkzeuge effektiv zu nutzen, bleibt jedoch eine erhebliche Herausforderung. Bestehende Methoden basieren typischerweise auf Cold-Start-Pipelines, die mit supervised Fine-Tuning (SFT) beginnen und darauf mit Reinforcement Learning (RL) aufbauen. Diese Ansätze erfordern oft große Mengen an gelabelten Daten für das SFT, deren Annotation oder Synthese kostspielig ist. In dieser Arbeit schlagen wir In-Context Reinforcement Learning (ICRL) vor, ein reines RL-Framework, das den Bedarf an SFT durch den Einsatz von Few-Shot-Prompting während der Rollout-Phase des RL beseitigt. Konkret führt ICRL In-Context-Beispiele in den Rollout-Prompts ein, um dem Modell die Nutzung externer Werkzeuge beizubringen. Darüber hinaus wird die Anzahl der In-Context-Beispiele mit fortschreitendem Training schrittweise reduziert, bis schließlich eine Zero-Shot-Umgebung erreicht wird, in der das Modell lernt, Werkzeuge eigenständig aufzurufen. Wir führen umfangreiche Experimente mit einer Reihe von Benchmarks für logisches Denken und Werkzeugnutzung durch. Die Ergebnisse zeigen, dass ICRL state-of-the-art Leistung erzielt und sich damit als skalierbare, dateneffiziente Alternative zu traditionellen SFT-basierten Pipelines erweist.
English
While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.