Skalierung von Multi-Turn-RL für LLMs mit end-to-end Zusammenfassungsbasierter Kontextverwaltung

papers.abstract

Wir untersuchen das Feintuning von Reinforcement Learning (RL) für große Sprachmodell-Agenten (LLM) im Kontext von langfristigem, mehrstufigem Werkzeugeinsatz, bei dem die Kontextlänge schnell zu einem grundlegenden Engpass wird. Bestehende RL-Pipelines können unter einer Verschlechterung der Befolgung von Anweisungen, übermäßigen Rollout-Kosten und vor allem strengen Kontextgrenzen leiden. Um diese Herausforderungen zu bewältigen, führen wir eine zusammenfassungsbasierte Kontextverwaltung in das Training ein. Diese komprimiert periodisch die Werkzeugnutzungshistorie durch LLM-generierte Zusammenfassungen, die aufgabenrelevante Informationen beibehalten, um einen kompakten Kontext zu bewahren und gleichzeitig den Agenten zu ermöglichen, über das feste Kontextfenster hinaus zu skalieren. Aufbauend auf dieser Formulierung leiten wir eine Policy-Gradient-Darstellung ab, die es ermöglicht, bestehende LLM-RL-Infrastrukturen nahtlos zu nutzen, um sowohl Werkzeugnutzungsverhalten als auch Zusammenfassungsstrategien end-to-end zu optimieren. Wir implementieren diesen Rahmen mit SUmmarization augmented Policy Optimization (SUPO), einem LLM-RL-Algorithmus, der langfristiges Training über eine feste Kontextgrenze hinaus ermöglicht. Experimente zu interaktiven Funktionsaufrufen und Suchaufgaben zeigen, dass SUPO die Erfolgsrate signifikant verbessert, während die Arbeitskontextlänge im Vergleich zu Baselines gleich oder sogar geringer bleibt. Wir zeigen außerdem, dass SUPO bei komplexen Suchaufgaben die Evaluationsleistung weiter verbessern kann, wenn die maximale Zusammenfassungsrunde zur Testzeit über die der Trainingszeit hinaus skaliert wird. Unsere Ergebnisse etablieren die zusammenfassungsbasierte Kontextverwaltung als einen prinzipiellen und skalierbaren Ansatz für das Training von RL-Agenten über eine feste Kontextlängengrenze hinaus.

English

We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with SUmmarization augmented Policy Optimization (SUPO), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that SUPO significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, SUPO can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.

Skalierung von Multi-Turn-RL für LLMs mit end-to-end Zusammenfassungsbasierter Kontextverwaltung

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

papers.abstract

Support