大規模言語モデルのマルチターン強化学習をスケーリングするためのエンドツーエンド要約ベースのコンテキスト管理
Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
October 8, 2025
著者: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI
要旨
長期的なマルチターンのツール使用を目的とした大規模言語モデル(LLM)エージェントの強化学習(RL)ファインチューニングを研究する中で、コンテキスト長が迅速に根本的なボトルネックとなることが明らかになりました。既存のRLパイプラインでは、指示の追従が低下したり、過剰なロールアウトコストが発生したり、最も重要なことに、厳格なコンテキスト制限に直面する可能性があります。これらの課題に対処するため、トレーニングに要約ベースのコンテキスト管理を導入します。具体的には、タスクに関連する情報を保持するLLM生成の要約によって、ツール使用履歴を定期的に圧縮し、コンパクトなコンテキストを維持しながら、エージェントが固定されたコンテキストウィンドウを超えてスケールできるようにします。この定式化を基に、標準的なLLM RLインフラストラクチャがツール使用行動と要約戦略をエンドツーエンドで最適化できるようにするポリシー勾配表現を導出します。このフレームワークを、固定されたコンテキスト制限を超えた長期的なトレーニングを可能にするLLM RLアルゴリズムであるSUmmarization augmented Policy Optimization(SUPO)として具体化します。インタラクティブな関数呼び出しと検索タスクにおける実験では、SUPOがベースラインと比較して成功率を大幅に向上させながら、同じまたはさらに低い作業コンテキスト長を維持することが示されています。また、複雑な検索タスクにおいて、SUPOがトレーニング時の要約ラウンド数を超えてテスト時の最大要約ラウンド数をスケールすることで、評価性能をさらに向上させることができることも示しています。これらの結果は、要約ベースのコンテキスト管理が、固定されたコンテキスト長制限を超えたRLエージェントのトレーニングにおける原則的でスケーラブルなアプローチであることを確立します。
English
We study reinforcement learning (RL) fine-tuning of large language model
(LLM) agents for long-horizon multi-turn tool use, where context length quickly
becomes a fundamental bottleneck. Existing RL pipelines can suffer from
degraded instruction following, excessive rollout costs, and most importantly,
strict context limits. To address these challenges, we introduce
summarization-based context management to training. In specific, it
periodically compresses the tool using history by LLM-generated summaries that
retain task-relevant information to keep a compact context while enabling the
agent to scale beyond the fixed context window. Building on this formulation,
we derive a policy gradient representation that seamlessly enables standard LLM
RL infrastructures to optimize both tool-use behaviors as well as summarization
strategies in an end-to-end fashion. We instantiate this framework with
SUmmarization augmented Policy Optimization
(SUPO), an LLM RL algorithm that enables long-horizon training beyond
a fixed context limit. Experiments on interactive function calling and
searching tasks demonstrate that SUPO significantly improves the
success rate while maintaining the same or even lower working context length
compared to baselines. We also demonstrate that for complex searching tasks,
SUPO can further improve the evaluation performance when scaling
test-time maximum round of summarization beyond that of training time. Our
results establish summarization-based context management as a principled and
scalable approach for training RL agents beyond a fixed context length limit.