ChatPaper.aiChatPaper

대규모 언어 모델의 다중 턴 강화 학습을 위한 종단 간 요약 기반 컨텍스트 관리

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

October 8, 2025
저자: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI

초록

우리는 장기적인 다중 턴 도구 사용을 위한 대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 미세 조정을 연구하며, 여기서 컨텍스트 길이는 빠르게 근본적인 병목 현상이 됩니다. 기존의 RL 파이프라인은 지시 사항 준수 저하, 과도한 롤아웃 비용, 그리고 가장 중요한 고정된 컨텍스트 제한으로 인해 어려움을 겪을 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 요약 기반 컨텍스트 관리를 학습에 도입합니다. 구체적으로, 이 방법은 LLM이 생성한 요약을 통해 도구 사용 기록을 주기적으로 압축하여 작업 관련 정보를 유지하면서도 컴팩트한 컨텍스트를 유지함으로써 에이전트가 고정된 컨텍스트 창을 넘어 확장할 수 있도록 합니다. 이 공식을 기반으로, 우리는 표준 LLM RL 인프라가 도구 사용 행동과 요약 전략을 종단 간 방식으로 최적화할 수 있도록 하는 정책 그래디언트 표현을 도출합니다. 우리는 이 프레임워크를 SUmmarization augmented Policy Optimization(SUPO)라는 LLM RL 알고리즘으로 구체화하며, 이 알고리즘은 고정된 컨텍스트 제한을 넘어 장기적인 학습을 가능하게 합니다. 인터랙티브 함수 호출 및 검색 작업에 대한 실험은 SUPO가 기준선과 동일하거나 더 낮은 작업 컨텍스트 길이를 유지하면서 성공률을 크게 향상시킴을 보여줍니다. 또한, 복잡한 검색 작업의 경우, SUPO는 학습 시간보다 더 긴 테스트 시간 최대 요약 라운드를 확장할 때 평가 성능을 더욱 개선할 수 있음을 보여줍니다. 우리의 결과는 요약 기반 컨텍스트 관리가 고정된 컨텍스트 길이 제한을 넘어 RL 에이전트를 학습시키는 원칙적이고 확장 가능한 접근 방식임을 입증합니다.
English
We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with SUmmarization augmented Policy Optimization (SUPO), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that SUPO significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, SUPO can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.
PDF32October 16, 2025