AgentFold: Web-Agenten mit langem Planungshorizont und proaktivem Kontextmanagement
AgentFold: Long-Horizon Web Agents with Proactive Context Management
October 28, 2025
papers.authors: Rui Ye, Zhongwang Zhang, Kuan Li, Huifeng Yin, Zhengwei Tao, Yida Zhao, Liangcai Su, Liwen Zhang, Zile Qiao, Xinyu Wang, Pengjun Xie, Fei Huang, Siheng Chen, Jingren Zhou, Yong Jiang
cs.AI
papers.abstract
LLM-basierte Web-Agenten zeigen immenses Potenzial für die Informationssuche, doch ihre Effektivität bei langfristigen Aufgaben wird durch einen grundlegenden Zielkonflikt in der Kontextverwaltung beeinträchtigt. Gängige, auf ReAct basierende Agenten leiden unter Kontextsättigung, da sie ungefilterte, rohe Verläufe anhäufen, während Methoden, die bei jedem Schritt den gesamten Verlauf starr zusammenfassen, das Risiko eines irreversiblen Verlusts kritischer Details bergen. Als Lösung führen wir AgentFold ein, ein neuartiges Agenten-Paradigma, das auf proaktiver Kontextverwaltung basiert und vom menschlichen kognitiven Prozess der retrospektiven Konsolidierung inspiriert ist. AgentFold behandelt seinen Kontext als einen dynamischen kognitiven Arbeitsbereich, der aktiv gestaltet wird, und nicht als ein passives Protokoll, das gefüllt werden muss. In jedem Schritt lernt es, eine `Falt`-Operation auszuführen, die seinen historischen Verlauf auf mehreren Ebenen verwaltet: Es kann granulare Verdichtungen durchführen, um wesentliche, feinkörnige Details zu bewahren, oder tiefgreifende Konsolidierungen, um gesamte mehrstufige Teilaufgaben zu abstrahieren. Die Ergebnisse auf prominenten Benchmarks sind bemerkenswert: Mit einfachem Supervised Fine-Tuning (ohne kontinuierliches Pre-Training oder RL) erreicht unser AgentFold-30B-A3B-Agent 36,2 % auf BrowseComp und 47,3 % auf BrowseComp-ZH. Bemerkenswerterweise übertrifft diese Leistung nicht nur Open-Source-Modelle mit deutlich größerem Umfang, wie DeepSeek-V3.1-671B-A37B, oder hält mit ihnen Schritt, sondern übertrifft auch führende proprietäre Agenten wie OpenAIs o4-mini.
English
LLM-based web agents show immense promise for information seeking, yet their
effectiveness on long-horizon tasks is hindered by a fundamental trade-off in
context management. Prevailing ReAct-based agents suffer from context
saturation as they accumulate noisy, raw histories, while methods that fixedly
summarize the full history at each step risk the irreversible loss of critical
details. Addressing these, we introduce AgentFold, a novel agent paradigm
centered on proactive context management, inspired by the human cognitive
process of retrospective consolidation. AgentFold treats its context as a
dynamic cognitive workspace to be actively sculpted, rather than a passive log
to be filled. At each step, it learns to execute a `folding' operation, which
manages its historical trajectory at multiple scales: it can perform granular
condensations to preserve vital, fine-grained details, or deep consolidations
to abstract away entire multi-step sub-tasks. The results on prominent
benchmarks are striking: with simple supervised fine-tuning (without continual
pre-training or RL), our AgentFold-30B-A3B agent achieves 36.2% on BrowseComp
and 47.3% on BrowseComp-ZH. Notably, this performance not only surpasses or
matches open-source models of a dramatically larger scale, such as the
DeepSeek-V3.1-671B-A37B, but also surpasses leading proprietary agents like
OpenAI's o4-mini.