Масштабирование многоходового обучения с подкреплением для языковых моделей с использованием сквозного управления контекстом на основе суммаризации

Аннотация

Мы исследуем тонкую настройку с подкреплением (RL) агентов на основе больших языковых моделей (LLM) для многошагового использования инструментов в долгосрочных задачах, где длина контекста быстро становится фундаментальным ограничением. Существующие RL-подходы могут страдать от ухудшения выполнения инструкций, чрезмерных затрат на развертывание и, что наиболее важно, строгих ограничений на длину контекста. Для решения этих проблем мы внедряем управление контекстом на основе суммаризации в процесс обучения. В частности, оно периодически сжимает историю использования инструментов с помощью кратких резюме, генерируемых LLM, которые сохраняют информацию, релевантную задаче, что позволяет поддерживать компактный контекст и одновременно масштабировать агента за пределы фиксированного окна контекста. На основе этой формулировки мы выводим представление градиента политики, которое позволяет стандартным RL-инфраструктурам для LLM оптимизировать как поведение при использовании инструментов, так и стратегии суммаризации в сквозном режиме. Мы реализуем этот подход в виде алгоритма RL для LLM под названием SUmmarization augmented Policy Optimization (SUPO), который позволяет проводить обучение в долгосрочных задачах за пределами фиксированного ограничения на длину контекста. Эксперименты на задачах интерактивного вызова функций и поиска демонстрируют, что SUPO значительно повышает успешность выполнения задач, сохраняя при этом ту же или даже меньшую длину рабочего контекста по сравнению с базовыми методами. Мы также показываем, что для сложных задач поиска SUPO может дополнительно улучшить результаты оценки, когда максимальное количество шагов суммаризации на этапе тестирования превышает значение, использованное при обучении. Наши результаты подтверждают, что управление контекстом на основе суммаризации является принципиальным и масштабируемым подходом для обучения RL-агентов за пределами фиксированного ограничения на длину контекста.

English

We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with SUmmarization augmented Policy Optimization (SUPO), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that SUPO significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, SUPO can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.

Масштабирование многоходового обучения с подкреплением для языковых моделей с использованием сквозного управления контекстом на основе суммаризации

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

Аннотация

Support