AgentFold: Agentes Web de Longo Horizonte com Gestão Proativa de Contexto

Resumo

Os agentes web baseados em LLM mostram imenso potencial para busca de informações, mas sua eficácia em tarefas de longo horizonte é prejudicada por um trade-off fundamental no gerenciamento de contexto. Agentes predominantes baseados em ReAct sofrem com saturação de contexto à medida que acumulam históricos brutos e ruidosos, enquanto métodos que resumem rigidamente o histórico completo a cada passo arriscam a perda irreversível de detalhes críticos. Para resolver isso, introduzimos o AgentFold, um novo paradigma de agente centrado no gerenciamento proativo de contexto, inspirado no processo cognitivo humano de consolidação retrospectiva. O AgentFold trata seu contexto como um espaço de trabalho cognitivo dinâmico a ser ativamente esculpido, em vez de um log passivo a ser preenchido. A cada passo, ele aprende a executar uma operação de "dobragem" (`folding`), que gerencia sua trajetória histórica em múltiplas escalas: pode realizar condensações granulares para preservar detalhes vitais e refinados, ou consolidações profundas para abstrair sub-tarefas inteiras de múltiplos passos. Os resultados em benchmarks proeminentes são impressionantes: com simples ajuste fino supervisionado (sem pré-treinamento contínuo ou RL), nosso agente AgentFold-30B-A3B alcança 36,2% no BrowseComp e 47,3% no BrowseComp-ZH. Notavelmente, este desempenho não apenas supera ou iguala modelos de código aberto de escala dramaticamente maior, como o DeepSeek-V3.1-671B-A37B, mas também supera agentes proprietários líderes como o o4-mini da OpenAI.

English

LLM-based web agents show immense promise for information seeking, yet their effectiveness on long-horizon tasks is hindered by a fundamental trade-off in context management. Prevailing ReAct-based agents suffer from context saturation as they accumulate noisy, raw histories, while methods that fixedly summarize the full history at each step risk the irreversible loss of critical details. Addressing these, we introduce AgentFold, a novel agent paradigm centered on proactive context management, inspired by the human cognitive process of retrospective consolidation. AgentFold treats its context as a dynamic cognitive workspace to be actively sculpted, rather than a passive log to be filled. At each step, it learns to execute a `folding' operation, which manages its historical trajectory at multiple scales: it can perform granular condensations to preserve vital, fine-grained details, or deep consolidations to abstract away entire multi-step sub-tasks. The results on prominent benchmarks are striking: with simple supervised fine-tuning (without continual pre-training or RL), our AgentFold-30B-A3B agent achieves 36.2% on BrowseComp and 47.3% on BrowseComp-ZH. Notably, this performance not only surpasses or matches open-source models of a dramatically larger scale, such as the DeepSeek-V3.1-671B-A37B, but also surpasses leading proprietary agents like OpenAI's o4-mini.

AgentFold: Agentes Web de Longo Horizonte com Gestão Proativa de Contexto

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Resumo

Support