Skalierung von Multi-Turn-RL für LLMs mit end-to-end Zusammenfassungsbasierter Kontextverwaltung
Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
October 8, 2025
papers.authors: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI
papers.abstract
Wir untersuchen das Feintuning von Reinforcement Learning (RL) für große Sprachmodell-Agenten (LLM) im Kontext von langfristigem, mehrstufigem Werkzeugeinsatz, bei dem die Kontextlänge schnell zu einem grundlegenden Engpass wird. Bestehende RL-Pipelines können unter einer Verschlechterung der Befolgung von Anweisungen, übermäßigen Rollout-Kosten und vor allem strengen Kontextgrenzen leiden. Um diese Herausforderungen zu bewältigen, führen wir eine zusammenfassungsbasierte Kontextverwaltung in das Training ein. Diese komprimiert periodisch die Werkzeugnutzungshistorie durch LLM-generierte Zusammenfassungen, die aufgabenrelevante Informationen beibehalten, um einen kompakten Kontext zu bewahren und gleichzeitig den Agenten zu ermöglichen, über das feste Kontextfenster hinaus zu skalieren. Aufbauend auf dieser Formulierung leiten wir eine Policy-Gradient-Darstellung ab, die es ermöglicht, bestehende LLM-RL-Infrastrukturen nahtlos zu nutzen, um sowohl Werkzeugnutzungsverhalten als auch Zusammenfassungsstrategien end-to-end zu optimieren. Wir implementieren diesen Rahmen mit SUmmarization augmented Policy Optimization (SUPO), einem LLM-RL-Algorithmus, der langfristiges Training über eine feste Kontextgrenze hinaus ermöglicht. Experimente zu interaktiven Funktionsaufrufen und Suchaufgaben zeigen, dass SUPO die Erfolgsrate signifikant verbessert, während die Arbeitskontextlänge im Vergleich zu Baselines gleich oder sogar geringer bleibt. Wir zeigen außerdem, dass SUPO bei komplexen Suchaufgaben die Evaluationsleistung weiter verbessern kann, wenn die maximale Zusammenfassungsrunde zur Testzeit über die der Trainingszeit hinaus skaliert wird. Unsere Ergebnisse etablieren die zusammenfassungsbasierte Kontextverwaltung als einen prinzipiellen und skalierbaren Ansatz für das Training von RL-Agenten über eine feste Kontextlängengrenze hinaus.
English
We study reinforcement learning (RL) fine-tuning of large language model
(LLM) agents for long-horizon multi-turn tool use, where context length quickly
becomes a fundamental bottleneck. Existing RL pipelines can suffer from
degraded instruction following, excessive rollout costs, and most importantly,
strict context limits. To address these challenges, we introduce
summarization-based context management to training. In specific, it
periodically compresses the tool using history by LLM-generated summaries that
retain task-relevant information to keep a compact context while enabling the
agent to scale beyond the fixed context window. Building on this formulation,
we derive a policy gradient representation that seamlessly enables standard LLM
RL infrastructures to optimize both tool-use behaviors as well as summarization
strategies in an end-to-end fashion. We instantiate this framework with
SUmmarization augmented Policy Optimization
(SUPO), an LLM RL algorithm that enables long-horizon training beyond
a fixed context limit. Experiments on interactive function calling and
searching tasks demonstrate that SUPO significantly improves the
success rate while maintaining the same or even lower working context length
compared to baselines. We also demonstrate that for complex searching tasks,
SUPO can further improve the evaluation performance when scaling
test-time maximum round of summarization beyond that of training time. Our
results establish summarization-based context management as a principled and
scalable approach for training RL agents beyond a fixed context length limit.