ChatPaper.aiChatPaper

Scalabilità degli Agenti LLM a Lungo Termine tramite Folding del Contesto

Scaling Long-Horizon LLM Agent via Context-Folding

October 13, 2025
Autori: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI

Abstract

Gli agenti basati su modelli linguistici di grandi dimensioni (LLM) sono fondamentalmente limitati dalla lunghezza del contesto nei compiti a lungo termine. Introduciamo Context-Folding, un framework che consente agli agenti di gestire attivamente il proprio contesto di lavoro. Un agente può procedere a ramificarsi in una sotto-traiettoria per gestire un sottocompito e poi ripiegarla al completamento, comprimendo i passaggi intermedi mentre mantiene un riassunto conciso del risultato. Per rendere questo comportamento apprendibile, sviluppiamo un framework di apprendimento per rinforzo end-to-end, FoldGRPO, con ricompense specifiche per il processo per incentivare una scomposizione efficace dei compiti e una gestione ottimale del contesto. Su compiti complessi a lungo termine (Deep Research e SWE), il nostro agente con folding eguaglia o supera le baseline ReAct utilizzando un contesto attivo 10 volte più piccolo e supera significativamente i modelli che si basano su una gestione del contesto basata su riassunti.
English
Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10times smaller and significantly outperforms models that rely on summarization-based context management.
PDF32October 16, 2025