ChatPaper.aiChatPaper

Mise à l'échelle de l'apprentissage par renforcement multi-tours pour les LLM avec gestion de contexte basée sur la synthèse end-to-end

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

October 8, 2025
papers.authors: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI

papers.abstract

Nous étudions le réglage fin par apprentissage par renforcement (RL) d'agents basés sur des modèles de langage de grande taille (LLM) pour l'utilisation d'outils sur des horizons temporels longs et multi-tours, où la longueur du contexte devient rapidement un goulot d'étranglement fondamental. Les pipelines RL existants peuvent souffrir d'une dégradation du suivi des instructions, de coûts de déploiement excessifs et, surtout, de limites strictes de contexte. Pour relever ces défis, nous introduisons une gestion du contexte basée sur la synthèse dans l'entraînement. Plus précisément, elle compresse périodiquement l'historique d'utilisation des outils grâce à des résumés générés par le LLM qui conservent les informations pertinentes pour la tâche, permettant ainsi de maintenir un contexte compact tout en permettant à l'agent de dépasser la fenêtre de contexte fixe. En nous appuyant sur cette formulation, nous dérivons une représentation de gradient de politique qui permet de manière transparente aux infrastructures RL standard des LLM d'optimiser à la fois les comportements d'utilisation des outils et les stratégies de synthèse de manière end-to-end. Nous instancions ce cadre avec l'Optimisation de Politique Augmentée par la Synthèse (SUPO), un algorithme RL pour LLM qui permet un entraînement sur des horizons temporels longs au-delà d'une limite de contexte fixe. Les expériences sur des tâches d'appel de fonctions interactives et de recherche démontrent que SUPO améliore significativement le taux de réussite tout en maintenant la même longueur de contexte de travail, voire une longueur inférieure, par rapport aux méthodes de référence. Nous montrons également que pour des tâches de recherche complexes, SUPO peut encore améliorer les performances d'évaluation en augmentant le nombre maximum de tours de synthèse au moment du test par rapport à celui de l'entraînement. Nos résultats établissent la gestion du contexte basée sur la synthèse comme une approche rigoureuse et évolutive pour entraîner des agents RL au-delà d'une limite de longueur de contexte fixe.
English
We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with SUmmarization augmented Policy Optimization (SUPO), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that SUPO significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, SUPO can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.
PDF32October 16, 2025