Scalabilità del RL Multi-turn per LLM con Gestione del Contesto basata su Summarizzazione End-to-end
Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management
October 8, 2025
Autori: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen
cs.AI
Abstract
Studiamo il fine-tuning tramite apprendimento per rinforzo (RL) di agenti basati su modelli linguistici di grandi dimensioni (LLM) per l'uso di strumenti multi-turn a lungo orizzonte, dove la lunghezza del contesto diventa rapidamente un collo di bottiglia fondamentale. Le pipeline RL esistenti possono soffrire di un deterioramento nel seguire le istruzioni, costi eccessivi di rollout e, soprattutto, limiti rigidi di contesto. Per affrontare queste sfide, introduciamo una gestione del contesto basata sulla sintesi durante l'addestramento. Nello specifico, questa periodicamente comprime la cronologia dell'uso degli strumenti tramite riassunti generati da LLM che conservano le informazioni rilevanti per il compito, mantenendo un contesto compatto e permettendo all'agente di scalare oltre la finestra di contesto fissa. Basandoci su questa formulazione, deriviamo una rappresentazione del gradiente della politica che consente in modo fluido alle infrastrutture standard di RL per LLM di ottimizzare sia i comportamenti nell'uso degli strumenti che le strategie di sintesi in modo end-to-end. Istanziamo questo framework con l'ottimizzazione della politica aumentata dalla sintesi (SUPO), un algoritmo RL per LLM che abilita l'addestramento a lungo orizzonte oltre il limite di contesto fisso. Esperimenti su compiti di chiamata di funzioni interattive e di ricerca dimostrano che SUPO migliora significativamente il tasso di successo mantenendo la stessa o addirittura una lunghezza di contesto di lavoro inferiore rispetto ai baseline. Dimostriamo inoltre che per compiti di ricerca complessi, SUPO può ulteriormente migliorare le prestazioni di valutazione quando si scala il numero massimo di round di sintesi al momento del test oltre quello del tempo di addestramento. I nostri risultati stabiliscono la gestione del contesto basata sulla sintesi come un approccio principiato e scalabile per l'addestramento di agenti RL oltre un limite di lunghezza del contesto fisso.
English
We study reinforcement learning (RL) fine-tuning of large language model
(LLM) agents for long-horizon multi-turn tool use, where context length quickly
becomes a fundamental bottleneck. Existing RL pipelines can suffer from
degraded instruction following, excessive rollout costs, and most importantly,
strict context limits. To address these challenges, we introduce
summarization-based context management to training. In specific, it
periodically compresses the tool using history by LLM-generated summaries that
retain task-relevant information to keep a compact context while enabling the
agent to scale beyond the fixed context window. Building on this formulation,
we derive a policy gradient representation that seamlessly enables standard LLM
RL infrastructures to optimize both tool-use behaviors as well as summarization
strategies in an end-to-end fashion. We instantiate this framework with
SUmmarization augmented Policy Optimization
(SUPO), an LLM RL algorithm that enables long-horizon training beyond
a fixed context limit. Experiments on interactive function calling and
searching tasks demonstrate that SUPO significantly improves the
success rate while maintaining the same or even lower working context length
compared to baselines. We also demonstrate that for complex searching tasks,
SUPO can further improve the evaluation performance when scaling
test-time maximum round of summarization beyond that of training time. Our
results establish summarization-based context management as a principled and
scalable approach for training RL agents beyond a fixed context length limit.