ChatPaper.aiChatPaper

Escalado de RL Multiturno en LLM con Gestión de Contexto Basada en Resúmenes de Extremo a Extremo

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

October 8, 2025
Autores: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI

Resumen

Estudiamos el ajuste fino mediante aprendizaje por refuerzo (RL) de agentes basados en grandes modelos de lenguaje (LLM) para el uso de herramientas en tareas de múltiples turnos de largo horizonte, donde la longitud del contexto rápidamente se convierte en un cuello de botella fundamental. Los pipelines de RL existentes pueden sufrir de degradación en el seguimiento de instrucciones, costos excesivos en la ejecución y, más importante aún, límites estrictos de contexto. Para abordar estos desafíos, introducimos la gestión de contexto basada en resúmenes durante el entrenamiento. En concreto, comprime periódicamente el historial de uso de herramientas mediante resúmenes generados por el LLM que retienen información relevante para la tarea, manteniendo un contexto compacto mientras permite que el agente escale más allá de la ventana de contexto fija. Basándonos en esta formulación, derivamos una representación de gradiente de política que permite de manera fluida que las infraestructuras estándar de RL para LLM optimicen tanto los comportamientos de uso de herramientas como las estrategias de resumen de forma end-to-end. Instanciamos este marco con Optimización de Política Aumentada con Resúmenes (SUPO), un algoritmo de RL para LLM que permite el entrenamiento de largo horizonte más allá de un límite de contexto fijo. Los experimentos en tareas interactivas de llamadas a funciones y búsqueda demuestran que SUPO mejora significativamente la tasa de éxito mientras mantiene la misma o incluso una menor longitud de contexto de trabajo en comparación con los métodos base. También demostramos que, para tareas de búsqueda complejas, SUPO puede mejorar aún más el rendimiento en evaluación al escalar el número máximo de rondas de resumen en tiempo de prueba más allá del utilizado en el entrenamiento. Nuestros resultados establecen la gestión de contexto basada en resúmenes como un enfoque fundamentado y escalable para entrenar agentes de RL más allá de un límite fijo de longitud de contexto.
English
We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with SUmmarization augmented Policy Optimization (SUPO), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that SUPO significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, SUPO can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.
PDF32October 16, 2025