AgentFold: Веб-агенты для долгосрочных задач с проактивным управлением контекстом
AgentFold: Long-Horizon Web Agents with Proactive Context Management
October 28, 2025
Авторы: Rui Ye, Zhongwang Zhang, Kuan Li, Huifeng Yin, Zhengwei Tao, Yida Zhao, Liangcai Su, Liwen Zhang, Zile Qiao, Xinyu Wang, Pengjun Xie, Fei Huang, Siheng Chen, Jingren Zhou, Yong Jiang
cs.AI
Аннотация
Веб-агенты на основе больших языковых моделей демонстрируют огромный потенциал в области информационного поиска, однако их эффективность при решении долгосрочных задач ограничена фундаментальным компромиссом в управлении контекстом. Преобладающие агенты на основе парадигмы ReAct страдают от насыщения контекста по мере накопления зашумленных, необработанных историй, в то время как методы, жестко суммирующие всю историю на каждом шаге, несут риск необратимой потери критически важных деталей. Для решения этих проблем мы представляем AgentFold — новую парадигму агента, основанную на проактивном управлении контекстом и вдохновленную когнитивным процессом ретроспективной консолидации у человека. AgentFold рассматривает свой контекст как динамическое когнитивное рабочее пространство, которое необходимо активно формировать, а не как пассивный журнал для заполнения. На каждом шаге агент обучается выполнению операции «свертки», которая управляет его исторической траекторией на нескольких уровнях: он может выполнять детальные сжатия для сохранения жизненно важных, мелкозернистых деталей или глубокие консолидации для абстрагирования от целых многошаговых подзадач. Результаты на известных бенчмарках впечатляют: при простом контролируемом дообучении (без непрерывного предобучения или обучения с подкреплением) наш агент AgentFold-30B-A3B достигает 36,2% на BrowseComp и 47,3% на BrowseComp-ZH. Примечательно, что эти показатели не только превосходят или соответствуют результатам открытых моделей значительно большего масштаба, таких как DeepSeek-V3.1-671B-A37B, но и опережают ведущие проприетарные агенты, например, o4-mini от OpenAI.
English
LLM-based web agents show immense promise for information seeking, yet their
effectiveness on long-horizon tasks is hindered by a fundamental trade-off in
context management. Prevailing ReAct-based agents suffer from context
saturation as they accumulate noisy, raw histories, while methods that fixedly
summarize the full history at each step risk the irreversible loss of critical
details. Addressing these, we introduce AgentFold, a novel agent paradigm
centered on proactive context management, inspired by the human cognitive
process of retrospective consolidation. AgentFold treats its context as a
dynamic cognitive workspace to be actively sculpted, rather than a passive log
to be filled. At each step, it learns to execute a `folding' operation, which
manages its historical trajectory at multiple scales: it can perform granular
condensations to preserve vital, fine-grained details, or deep consolidations
to abstract away entire multi-step sub-tasks. The results on prominent
benchmarks are striking: with simple supervised fine-tuning (without continual
pre-training or RL), our AgentFold-30B-A3B agent achieves 36.2% on BrowseComp
and 47.3% on BrowseComp-ZH. Notably, this performance not only surpasses or
matches open-source models of a dramatically larger scale, such as the
DeepSeek-V3.1-671B-A37B, but also surpasses leading proprietary agents like
OpenAI's o4-mini.