ChatPaper.aiChatPaper

Escalonamento de RL Multi-turn em LLMs com Gerenciamento de Contexto Baseado em Sumarização End-to-end

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

October 8, 2025
Autores: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI

Resumo

Estudamos o ajuste fino por aprendizado por reforço (RL) de agentes de modelos de linguagem de grande escala (LLM) para o uso de ferramentas em múltiplas interações de longo prazo, onde o comprimento do contexto rapidamente se torna um gargalo fundamental. Os pipelines de RL existentes podem sofrer com a degradação no seguimento de instruções, custos excessivos de execução e, mais importante, limites estritos de contexto. Para enfrentar esses desafios, introduzimos o gerenciamento de contexto baseado em sumarização no treinamento. Especificamente, ele comprime periodicamente o histórico de uso de ferramentas por meio de resumos gerados por LLM que retêm informações relevantes para a tarefa, mantendo um contexto compacto enquanto permite que o agente escale além da janela de contexto fixa. Com base nessa formulação, derivamos uma representação de gradiente de política que permite de forma contínua que as infraestruturas padrão de RL em LLM otimizem tanto os comportamentos de uso de ferramentas quanto as estratégias de sumarização de ponta a ponta. Instanciamos esse framework com a Otimização de Política Aumentada por Sumarização (SUPO), um algoritmo de RL em LLM que permite o treinamento de longo prazo além de um limite de contexto fixo. Experimentos em tarefas interativas de chamada de função e busca demonstram que o SUPO melhora significativamente a taxa de sucesso enquanto mantém o mesmo ou até mesmo um comprimento de contexto de trabalho menor em comparação com as abordagens baselines. Também demonstramos que, para tarefas complexas de busca, o SUPO pode melhorar ainda mais o desempenho de avaliação ao escalar o número máximo de rodadas de sumarização no momento do teste além daquele usado no treinamento. Nossos resultados estabelecem o gerenciamento de contexto baseado em sumarização como uma abordagem fundamentada e escalável para treinar agentes de RL além de um limite fixo de comprimento de contexto.
English
We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with SUmmarization augmented Policy Optimization (SUPO), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that SUPO significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, SUPO can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.
PDF32October 16, 2025