Scalabilità degli Agenti LLM a Lungo Termine tramite Folding del Contesto

Abstract

Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) sono fondamentalmente limitati dalla lunghezza del contesto nei compiti a lungo termine. Introduciamo Context-Folding, un framework che consente agli agenti di gestire attivamente il proprio contesto di lavoro. Un agente può procedere a ramificarsi in una sotto-traiettoria per gestire un sottocompito e poi ripiegarla al completamento, comprimendo i passaggi intermedi mentre mantiene un riassunto conciso del risultato. Per rendere questo comportamento apprendibile, sviluppiamo un framework di apprendimento per rinforzo end-to-end, FoldGRPO, con ricompense specifiche per il processo per incentivare una scomposizione efficace dei compiti e una gestione ottimale del contesto. Su compiti complessi a lungo termine (Deep Research e SWE), il nostro agente con folding eguaglia o supera le baseline ReAct utilizzando un contesto attivo 10 volte più piccolo e supera significativamente i modelli che si basano su una gestione del contesto basata su riassunti.

English

Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10times smaller and significantly outperforms models that rely on summarization-based context management.

Scalabilità degli Agenti LLM a Lungo Termine tramite Folding del Contesto

Scaling Long-Horizon LLM Agent via Context-Folding

Abstract

Support