Scalabilità del RL Multi-turn per LLM con Gestione del Contesto basata su Summarizzazione End-to-end

Abstract

Studiamo il fine-tuning tramite apprendimento per rinforzo (RL) di agenti basati su modelli linguistici di grandi dimensioni (LLM) per l'uso di strumenti multi-turn a lungo orizzonte, dove la lunghezza del contesto diventa rapidamente un collo di bottiglia fondamentale. Le pipeline RL esistenti possono soffrire di un deterioramento nel seguire le istruzioni, costi eccessivi di rollout e, soprattutto, limiti rigidi di contesto. Per affrontare queste sfide, introduciamo una gestione del contesto basata sulla sintesi durante l'addestramento. Nello specifico, questa periodicamente comprime la cronologia dell'uso degli strumenti tramite riassunti generati da LLM che conservano le informazioni rilevanti per il compito, mantenendo un contesto compatto e permettendo all'agente di scalare oltre la finestra di contesto fissa. Basandoci su questa formulazione, deriviamo una rappresentazione del gradiente della politica che consente in modo fluido alle infrastrutture standard di RL per LLM di ottimizzare sia i comportamenti nell'uso degli strumenti che le strategie di sintesi in modo end-to-end. Istanziamo questo framework con l'ottimizzazione della politica aumentata dalla sintesi (SUPO), un algoritmo RL per LLM che abilita l'addestramento a lungo orizzonte oltre il limite di contesto fisso. Esperimenti su compiti di chiamata di funzioni interattive e di ricerca dimostrano che SUPO migliora significativamente il tasso di successo mantenendo la stessa o addirittura una lunghezza di contesto di lavoro inferiore rispetto ai baseline. Dimostriamo inoltre che per compiti di ricerca complessi, SUPO può ulteriormente migliorare le prestazioni di valutazione quando si scala il numero massimo di round di sintesi al momento del test oltre quello del tempo di addestramento. I nostri risultati stabiliscono la gestione del contesto basata sulla sintesi come un approccio principiato e scalabile per l'addestramento di agenti RL oltre un limite di lunghezza del contesto fisso.

English

We study reinforcement learning (RL) fine-tuning of large language model (LLM) agents for long-horizon multi-turn tool use, where context length quickly becomes a fundamental bottleneck. Existing RL pipelines can suffer from degraded instruction following, excessive rollout costs, and most importantly, strict context limits. To address these challenges, we introduce summarization-based context management to training. In specific, it periodically compresses the tool using history by LLM-generated summaries that retain task-relevant information to keep a compact context while enabling the agent to scale beyond the fixed context window. Building on this formulation, we derive a policy gradient representation that seamlessly enables standard LLM RL infrastructures to optimize both tool-use behaviors as well as summarization strategies in an end-to-end fashion. We instantiate this framework with SUmmarization augmented Policy Optimization (SUPO), an LLM RL algorithm that enables long-horizon training beyond a fixed context limit. Experiments on interactive function calling and searching tasks demonstrate that SUPO significantly improves the success rate while maintaining the same or even lower working context length compared to baselines. We also demonstrate that for complex searching tasks, SUPO can further improve the evaluation performance when scaling test-time maximum round of summarization beyond that of training time. Our results establish summarization-based context management as a principled and scalable approach for training RL agents beyond a fixed context length limit.

Scalabilità del RL Multi-turn per LLM con Gestione del Contesto basata su Summarizzazione End-to-end

Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management

Abstract

Support