AgentFold: Agentes Web de Horizonte Largo con Gestión Proactiva de Contexto
AgentFold: Long-Horizon Web Agents with Proactive Context Management
October 28, 2025
Autores: Rui Ye, Zhongwang Zhang, Kuan Li, Huifeng Yin, Zhengwei Tao, Yida Zhao, Liangcai Su, Liwen Zhang, Zile Qiao, Xinyu Wang, Pengjun Xie, Fei Huang, Siheng Chen, Jingren Zhou, Yong Jiang
cs.AI
Resumen
Los agentes web basados en LLM muestran un enorme potencial para la búsqueda de información, pero su eficacia en tareas de horizonte largo se ve limitada por una compensación fundamental en la gestión del contexto. Los agentes predominantes basados en ReAct sufren de saturación contextual a medida que acumulan historiales crudos y ruidosos, mientras que los métodos que resumen fijamente el historial completo en cada paso arriesgan la pérdida irreversible de detalles críticos. Para abordar esto, presentamos AgentFold, un nuevo paradigma de agente centrado en la gestión proactiva del contexto, inspirado en el proceso cognitivo humano de consolidación retrospectiva. AgentFold trata su contexto como un espacio de trabajo cognitivo dinámico que debe esculpirse activamente, en lugar de un registro pasivo que debe llenarse. En cada paso, aprende a ejecutar una operación de `plegado` que gestiona su trayectoria histórica a múltiples escalas: puede realizar condensaciones granulares para preservar detalles vitales y finos, o consolidaciones profundas para abstraer sub-tareas completas de múltiples pasos. Los resultados en benchmarks prominentes son sorprendentes: con un simple ajuste fino supervisado (sin pre-entrenamiento continuo o RL), nuestro agente AgentFold-30B-A3B alcanza un 36.2% en BrowseComp y un 47.3% en BrowseComp-ZH. Notablemente, este rendimiento no solo supera o iguala a modelos de código abierto de una escala dramáticamente mayor, como el DeepSeek-V3.1-671B-A37B, sino que también supera a agentes propietarios líderes como el o4-mini de OpenAI.
English
LLM-based web agents show immense promise for information seeking, yet their
effectiveness on long-horizon tasks is hindered by a fundamental trade-off in
context management. Prevailing ReAct-based agents suffer from context
saturation as they accumulate noisy, raw histories, while methods that fixedly
summarize the full history at each step risk the irreversible loss of critical
details. Addressing these, we introduce AgentFold, a novel agent paradigm
centered on proactive context management, inspired by the human cognitive
process of retrospective consolidation. AgentFold treats its context as a
dynamic cognitive workspace to be actively sculpted, rather than a passive log
to be filled. At each step, it learns to execute a `folding' operation, which
manages its historical trajectory at multiple scales: it can perform granular
condensations to preserve vital, fine-grained details, or deep consolidations
to abstract away entire multi-step sub-tasks. The results on prominent
benchmarks are striking: with simple supervised fine-tuning (without continual
pre-training or RL), our AgentFold-30B-A3B agent achieves 36.2% on BrowseComp
and 47.3% on BrowseComp-ZH. Notably, this performance not only surpasses or
matches open-source models of a dramatically larger scale, such as the
DeepSeek-V3.1-671B-A37B, but also surpasses leading proprietary agents like
OpenAI's o4-mini.