Масштабирование многоходового обучения с подкреплением для языковых моделей с использованием сквозного управления контекстом на основе суммаризации
Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
October 8, 2025
Авторы: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI
Аннотация
Мы исследуем тонкую настройку с подкреплением (RL) агентов на основе больших языковых моделей (LLM) для многошагового использования инструментов в долгосрочных задачах, где длина контекста быстро становится фундаментальным ограничением. Существующие RL-подходы могут страдать от ухудшения выполнения инструкций, чрезмерных затрат на развертывание и, что наиболее важно, строгих ограничений на длину контекста. Для решения этих проблем мы внедряем управление контекстом на основе суммаризации в процесс обучения. В частности, оно периодически сжимает историю использования инструментов с помощью кратких резюме, генерируемых LLM, которые сохраняют информацию, релевантную задаче, что позволяет поддерживать компактный контекст и одновременно масштабировать агента за пределы фиксированного окна контекста. На основе этой формулировки мы выводим представление градиента политики, которое позволяет стандартным RL-инфраструктурам для LLM оптимизировать как поведение при использовании инструментов, так и стратегии суммаризации в сквозном режиме. Мы реализуем этот подход в виде алгоритма RL для LLM под названием SUmmarization augmented Policy Optimization (SUPO), который позволяет проводить обучение в долгосрочных задачах за пределами фиксированного ограничения на длину контекста. Эксперименты на задачах интерактивного вызова функций и поиска демонстрируют, что SUPO значительно повышает успешность выполнения задач, сохраняя при этом ту же или даже меньшую длину рабочего контекста по сравнению с базовыми методами. Мы также показываем, что для сложных задач поиска SUPO может дополнительно улучшить результаты оценки, когда максимальное количество шагов суммаризации на этапе тестирования превышает значение, использованное при обучении. Наши результаты подтверждают, что управление контекстом на основе суммаризации является принципиальным и масштабируемым подходом для обучения RL-агентов за пределами фиксированного ограничения на длину контекста.
English
We study reinforcement learning (RL) fine-tuning of large language model
(LLM) agents for long-horizon multi-turn tool use, where context length quickly
becomes a fundamental bottleneck. Existing RL pipelines can suffer from
degraded instruction following, excessive rollout costs, and most importantly,
strict context limits. To address these challenges, we introduce
summarization-based context management to training. In specific, it
periodically compresses the tool using history by LLM-generated summaries that
retain task-relevant information to keep a compact context while enabling the
agent to scale beyond the fixed context window. Building on this formulation,
we derive a policy gradient representation that seamlessly enables standard LLM
RL infrastructures to optimize both tool-use behaviors as well as summarization
strategies in an end-to-end fashion. We instantiate this framework with
SUmmarization augmented Policy Optimization
(SUPO), an LLM RL algorithm that enables long-horizon training beyond
a fixed context limit. Experiments on interactive function calling and
searching tasks demonstrate that SUPO significantly improves the
success rate while maintaining the same or even lower working context length
compared to baselines. We also demonstrate that for complex searching tasks,
SUPO can further improve the evaluation performance when scaling
test-time maximum round of summarization beyond that of training time. Our
results establish summarization-based context management as a principled and
scalable approach for training RL agents beyond a fixed context length limit.