Scalabilità degli Agenti LLM a Lungo Termine tramite Folding del Contesto
Scaling Long-Horizon LLM Agent via Context-Folding
October 13, 2025
Autori: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI
Abstract
Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) sono fondamentalmente limitati dalla lunghezza del contesto nei compiti a lungo termine. Introduciamo Context-Folding, un framework che consente agli agenti di gestire attivamente il proprio contesto di lavoro. Un agente può procedere a ramificarsi in una sotto-traiettoria per gestire un sottocompito e poi ripiegarla al completamento, comprimendo i passaggi intermedi mentre mantiene un riassunto conciso del risultato. Per rendere questo comportamento apprendibile, sviluppiamo un framework di apprendimento per rinforzo end-to-end, FoldGRPO, con ricompense specifiche per il processo per incentivare una scomposizione efficace dei compiti e una gestione ottimale del contesto. Su compiti complessi a lungo termine (Deep Research e SWE), il nostro agente con folding eguaglia o supera le baseline ReAct utilizzando un contesto attivo 10 volte più piccolo e supera significativamente i modelli che si basano su una gestione del contesto basata su riassunti.
English
Large language model (LLM) agents are fundamentally constrained by context
length on long-horizon tasks. We introduce Context-Folding, a framework that
empowers agents to actively manage their working context. An agent can
procedurally branch into a sub-trajectory to handle a subtask and then fold it
upon completion, collapsing the intermediate steps while retaining a concise
summary of the outcome. To make this behavior learnable, we develop an
end-to-end reinforcement learning framework FoldGRPO with specific process
rewards to encourage effective task decomposition and context management. On
complex long-horizon tasks (Deep Research and SWE), our folding agent matches
or outperforms the ReAct baselines while using an active context 10times
smaller and significantly outperforms models that rely on summarization-based
context management.