ChatPaper.aiChatPaper

Escalando Agentes de LLM de Horizonte Largo mediante Plegado de Contexto

Scaling Long-Horizon LLM Agent via Context-Folding

October 13, 2025
Autores: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI

Resumen

Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) están fundamentalmente limitados por la longitud del contexto en tareas de horizonte prolongado. Presentamos Context-Folding, un marco que permite a los agentes gestionar activamente su contexto de trabajo. Un agente puede ramificarse de manera procedimental en una subtrayectoria para manejar una subtarea y luego plegarla una vez completada, colapsando los pasos intermedios mientras retiene un resumen conciso del resultado. Para hacer que este comportamiento sea aprendible, desarrollamos un marco de aprendizaje por refuerzo de extremo a extremo, FoldGRPO, con recompensas de proceso específicas para fomentar una descomposición efectiva de tareas y una gestión del contexto. En tareas complejas de horizonte prolongado (Deep Research y SWE), nuestro agente de plegado iguala o supera las líneas base de ReAct mientras utiliza un contexto activo 10 veces más pequeño y supera significativamente a los modelos que dependen de la gestión del contexto basada en resúmenes.
English
Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10times smaller and significantly outperforms models that rely on summarization-based context management.
PDF32October 16, 2025