Schaalvergroting van Multi-turn RL voor LLM's met End-to-end Samenvattingsgebaseerd Contextbeheer
Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
October 8, 2025
Auteurs: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI
Samenvatting
We bestuderen reinforcement learning (RL) fine-tuning van grote taalmodel (LLM) agents voor langetermijn multi-turn toolgebruik, waarbij contextlengte snel een fundamenteel knelpunt wordt. Bestaande RL-pipelines kunnen lijden onder verminderde instructievolging, excessieve rolloutkosten en, nog belangrijker, strikte contextlimieten. Om deze uitdagingen aan te pakken, introduceren we samenvattingsgebaseerd contextbeheer in de training. Specifiek comprimeert het periodiek de toolgebruiksgeschiedenis door middel van LLM-gegenereerde samenvattingen die taakrelevante informatie behouden, om een compacte context te behouden terwijl de agent kan schalen buiten het vaste contextvenster. Op basis van deze formulering leiden we een policy gradient representatie af die naadloos standaard LLM RL-infrastructuren in staat stelt om zowel toolgebruiksgedrag als samenvattingsstrategieën end-to-end te optimaliseren. We concretiseren dit framework met SUmmarization augmented Policy Optimization (SUPO), een LLM RL-algoritme dat langetermijntraining mogelijk maakt buiten een vaste contextlimiet. Experimenten met interactieve functieaanroep- en zoektaken tonen aan dat SUPO het slagingspercentage aanzienlijk verbetert terwijl het dezelfde of zelfs een lagere werkcontextlengte behoudt in vergelijking met baseline-methoden. We tonen ook aan dat SUPO voor complexe zoektaken de evaluatieprestaties verder kan verbeteren wanneer het maximale aantal samenvattingsronden tijdens de testtijd wordt opgeschaald ten opzichte van de trainingstijd. Onze resultaten vestigen samenvattingsgebaseerd contextbeheer als een principiële en schaalbare aanpak voor het trainen van RL-agents buiten een vaste contextlengtelimiet.
English
We study reinforcement learning (RL) fine-tuning of large language model
(LLM) agents for long-horizon multi-turn tool use, where context length quickly
becomes a fundamental bottleneck. Existing RL pipelines can suffer from
degraded instruction following, excessive rollout costs, and most importantly,
strict context limits. To address these challenges, we introduce
summarization-based context management to training. In specific, it
periodically compresses the tool using history by LLM-generated summaries that
retain task-relevant information to keep a compact context while enabling the
agent to scale beyond the fixed context window. Building on this formulation,
we derive a policy gradient representation that seamlessly enables standard LLM
RL infrastructures to optimize both tool-use behaviors as well as summarization
strategies in an end-to-end fashion. We instantiate this framework with
SUmmarization augmented Policy Optimization
(SUPO), an LLM RL algorithm that enables long-horizon training beyond
a fixed context limit. Experiments on interactive function calling and
searching tasks demonstrate that SUPO significantly improves the
success rate while maintaining the same or even lower working context length
compared to baselines. We also demonstrate that for complex searching tasks,
SUPO can further improve the evaluation performance when scaling
test-time maximum round of summarization beyond that of training time. Our
results establish summarization-based context management as a principled and
scalable approach for training RL agents beyond a fixed context length limit.