Escalando Agentes de LLM de Horizonte Largo mediante Plegado de Contexto
Scaling Long-Horizon LLM Agent via Context-Folding
October 13, 2025
Autores: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
cs.AI
Resumen
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) están fundamentalmente limitados por la longitud del contexto en tareas de horizonte prolongado. Presentamos Context-Folding, un marco que permite a los agentes gestionar activamente su contexto de trabajo. Un agente puede ramificarse de manera procedimental en una subtrayectoria para manejar una subtarea y luego plegarla una vez completada, colapsando los pasos intermedios mientras retiene un resumen conciso del resultado. Para hacer que este comportamiento sea aprendible, desarrollamos un marco de aprendizaje por refuerzo de extremo a extremo, FoldGRPO, con recompensas de proceso específicas para fomentar una descomposición efectiva de tareas y una gestión del contexto. En tareas complejas de horizonte prolongado (Deep Research y SWE), nuestro agente de plegado iguala o supera las líneas base de ReAct mientras utiliza un contexto activo 10 veces más pequeño y supera significativamente a los modelos que dependen de la gestión del contexto basada en resúmenes.
English
Large language model (LLM) agents are fundamentally constrained by context
length on long-horizon tasks. We introduce Context-Folding, a framework that
empowers agents to actively manage their working context. An agent can
procedurally branch into a sub-trajectory to handle a subtask and then fold it
upon completion, collapsing the intermediate steps while retaining a concise
summary of the outcome. To make this behavior learnable, we develop an
end-to-end reinforcement learning framework FoldGRPO with specific process
rewards to encourage effective task decomposition and context management. On
complex long-horizon tasks (Deep Research and SWE), our folding agent matches
or outperforms the ReAct baselines while using an active context 10times
smaller and significantly outperforms models that rely on summarization-based
context management.