ChatPaper.aiChatPaper

大規模言語モデルにおけるツール使用のための文脈内強化学習

In-Context Reinforcement Learning for Tool Use in Large Language Models

March 9, 2026
著者: Yaoqi Ye, Yiran Zhao, Keyu Duan, Zeyu Zheng, Kenji Kawaguchi, Cihang Xie, Michael Qizhe Shieh
cs.AI

要旨

大規模言語モデル(LLM)は強力な推論能力を示す一方で、複雑なタスクにおける性能は内部知識の限界によって制約されることが多い。この課題を克服する有望なアプローチとして、外部ツールによるモデルの拡張が挙げられる。例えば数学計算のためのPythonインタプリタや、事実情報を取得するための検索エンジンなどがこれに該当する。しかし、モデルにこれらのツールを効果的に利用させることは依然として大きな課題である。既存手法では、教師ありファインチューニング(SFT)から開始し、強化学習(RL)を適用するコールドスタート型パイプラインが一般的だが、これらの手法ではSFTのために大量のラベル付きデータが必要となり、そのアノテーションや合成には多大なコストが伴う。本研究では、強化学習のみに依存する新フレームワーク「In-Context強化学習(ICRL)」を提案する。ICRLはRLのロールアウト段階において少数ショットプロンプティングを活用することでSFTを不要とする。具体的には、ロールアウトプロンプト内にインコンテキスト例を導入し、モデルに外部ツールの呼び出し方法を学習させる。さらに訓練の進行に伴いインコンテキスト例の数を段階的に削減し、最終的にはモデルが自律的にツールを呼び出すゼロショット設定を実現する。様々な推論及びツール利用ベンチマークで広範な実験を行った結果、ICRLは従来のSFTベースのパイプラインに代わる、スケーラブルでデータ効率の高い手法として有効であり、State-of-the-Artの性能を達成することを示した。
English
While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.
PDF191March 13, 2026