AgentFold: Agenti Web a Lungo Termine con Gestione Proattiva del Contesto

Abstract

Gli agenti web basati su LLM mostrano un enorme potenziale nella ricerca di informazioni, ma la loro efficacia in compiti a lungo termine è limitata da un compromesso fondamentale nella gestione del contesto. I tradizionali agenti basati su ReAct soffrono di saturazione contestuale accumulando cronologie grezze e rumorose, mentre i metodi che riassumono rigidamente l'intera cronologia a ogni passo rischiano la perdita irreversibile di dettagli critici. Per affrontare questi problemi, introduciamo AgentFold, un nuovo paradigma di agente incentrato sulla gestione contestuale proattiva, ispirato al processo cognitivo umano del consolidamento retrospettivo. AgentFold tratta il proprio contesto come uno spazio di lavoro cognitivo dinamico da modellare attivamente, piuttosto che come un registro passivo da riempire. A ogni passo, apprende a eseguire un'operazione di "piegatura" che gestisce la sua traiettoria storica su scale multiple: può eseguire condensazioni granulari per preservare dettagli vitali e fini, o consolidamenti profondi per astrarre interi sotto-compiti multi-step. I risultati su benchmark prominenti sono notevoli: con una semplice messa a punto supervisionata (senza pre-addestramento continuo o RL), il nostro agente AgentFold-30B-A3B raggiunge il 36,2% su BrowseComp e il 47,3% su BrowseComp-ZH. Significativamente, queste prestazioni non solo superano o eguagliano modelli open-source di scala drasticamente maggiore, come DeepSeek-V3.1-671B-A37B, ma superano anche agenti proprietari all'avanguardia come o4-mini di OpenAI.

English

LLM-based web agents show immense promise for information seeking, yet their effectiveness on long-horizon tasks is hindered by a fundamental trade-off in context management. Prevailing ReAct-based agents suffer from context saturation as they accumulate noisy, raw histories, while methods that fixedly summarize the full history at each step risk the irreversible loss of critical details. Addressing these, we introduce AgentFold, a novel agent paradigm centered on proactive context management, inspired by the human cognitive process of retrospective consolidation. AgentFold treats its context as a dynamic cognitive workspace to be actively sculpted, rather than a passive log to be filled. At each step, it learns to execute a `folding' operation, which manages its historical trajectory at multiple scales: it can perform granular condensations to preserve vital, fine-grained details, or deep consolidations to abstract away entire multi-step sub-tasks. The results on prominent benchmarks are striking: with simple supervised fine-tuning (without continual pre-training or RL), our AgentFold-30B-A3B agent achieves 36.2% on BrowseComp and 47.3% on BrowseComp-ZH. Notably, this performance not only surpasses or matches open-source models of a dramatically larger scale, such as the DeepSeek-V3.1-671B-A37B, but also surpasses leading proprietary agents like OpenAI's o4-mini.

AgentFold: Agenti Web a Lungo Termine con Gestione Proattiva del Contesto

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Abstract

Support