ChatPaper.aiChatPaper

AgentFold: Webagents met Lange Horizons en Proactief Contextbeheer

AgentFold: Long-Horizon Web Agents with Proactive Context Management

October 28, 2025
Auteurs: Rui Ye, Zhongwang Zhang, Kuan Li, Huifeng Yin, Zhengwei Tao, Yida Zhao, Liangcai Su, Liwen Zhang, Zile Qiao, Xinyu Wang, Pengjun Xie, Fei Huang, Siheng Chen, Jingren Zhou, Yong Jiang
cs.AI

Samenvatting

Op LLM gebaseerde webagenten tonen enorme belofte voor informatiezoektaken, maar hun effectiviteit bij langetermijnopdrachten wordt belemmerd door een fundamentele afweging in contextbeheer. Gangbare op ReAct gebaseerde agenten kampen met contextverzadiging doordat ze lawaaierige, ruwe geschiedenis accumuleren, terwijl methoden die de volledige geschiedenis op elk stap vast samenvatten het risico lopen op onomkeerbaar verlies van kritieke details. Om dit aan te pakken, introduceren we AgentFold, een nieuw agentparadigma gericht op proactief contextbeheer, geïnspireerd door het menselijk cognitieve proces van retrospectieve consolidatie. AgentFold behandelt zijn context als een dynamische cognitieve werkruimte die actief wordt gevormd, in plaats van een passief logboek dat wordt gevuld. Bij elke stap leert het een `vouwing`-operatie uit te voeren, die zijn historische traject op meerdere schalen beheert: het kan granulair condenseren om vitale, fijnmazige details te behouden, of diepe consolidatie uitvoeren om volledige meerstaps sub-taken te abstraheren. De resultaten op prominente benchmarks zijn opvallend: met eenvoudige supervised fine-tuning (zijn voortgezette voorpretraining of RL) behaalt onze AgentFold-30B-A3B agent 36,2% op BrowseComp en 47,3% op BrowseComp-ZH. Opmerkelijk is dat deze prestatie niet alleen opensource-modellen van aanzienlijk grotere omvang overtreft of evenaart, zoals de DeepSeek-V3.1-671B-A37B, maar ook toonaangevende propriëtaire agenten zoals OpenAI's o4-mini overstijgt.
English
LLM-based web agents show immense promise for information seeking, yet their effectiveness on long-horizon tasks is hindered by a fundamental trade-off in context management. Prevailing ReAct-based agents suffer from context saturation as they accumulate noisy, raw histories, while methods that fixedly summarize the full history at each step risk the irreversible loss of critical details. Addressing these, we introduce AgentFold, a novel agent paradigm centered on proactive context management, inspired by the human cognitive process of retrospective consolidation. AgentFold treats its context as a dynamic cognitive workspace to be actively sculpted, rather than a passive log to be filled. At each step, it learns to execute a `folding' operation, which manages its historical trajectory at multiple scales: it can perform granular condensations to preserve vital, fine-grained details, or deep consolidations to abstract away entire multi-step sub-tasks. The results on prominent benchmarks are striking: with simple supervised fine-tuning (without continual pre-training or RL), our AgentFold-30B-A3B agent achieves 36.2% on BrowseComp and 47.3% on BrowseComp-ZH. Notably, this performance not only surpasses or matches open-source models of a dramatically larger scale, such as the DeepSeek-V3.1-671B-A37B, but also surpasses leading proprietary agents like OpenAI's o4-mini.
PDF674December 1, 2025