AgentFold: 선제적 컨텍스트 관리를 통한 장기적 웹 에이전트
AgentFold: Long-Horizon Web Agents with Proactive Context Management
October 28, 2025
저자: Rui Ye, Zhongwang Zhang, Kuan Li, Huifeng Yin, Zhengwei Tao, Yida Zhao, Liangcai Su, Liwen Zhang, Zile Qiao, Xinyu Wang, Pengjun Xie, Fei Huang, Siheng Chen, Jingren Zhou, Yong Jiang
cs.AI
초록
LLM 기반 웹 에이전트는 정보 탐색 분야에서 막대한 잠재력을 보여주지만, 장기적 과제 수행 효율성은 컨텍스트 관리의 근본적인 트레이드오프에 의해 제한됩니다. 기존 ReAct 기반 에이전트는 노이즈가 많은 원시 기록을 누적함에 따라 컨텍스트 포화 현상을 겪는 반면, 각 단계마다 전체 기록을 고정적으로 요약하는 방식은 중요한 세부 사항의 비가역적 손실 위험을 안고 있습니다. 이러한 문제를 해결하기 위해 우리는 인간의 회고적 정리 인지 과정에서 영감을 받아 능동적 컨텍스트 관리에 중점을 둔 새로운 에이전트 패러다임인 AgentFold을 제안합니다. AgentFold은 컨텍스트를 수동적으로 채워지는 로그가 아닌 능동적으로 조형되는 동적 인지 작업 공간으로 취급합니다. 각 단계마다 AgentFold은 다중 규모로 역사적 궤적을 관리하는 '폴딩' 작업을 실행하는 방법을 학습합니다: 중요한 세부 정보를 보존하기 위한 세분화된 응축을 수행하거나, 다단계 하위 작업 전체를 추상화하기 위한 심층 정리를 수행할 수 있습니다. 주요 벤치마크에서의 결과는 혁신적입니다: 간단한 지도 미세 조정만으로(지속 사전 학습이나 RL 없이) 우리의 AgentFold-30B-A3B 에이전트는 BrowseComp에서 36.2%, BrowseComp-ZH에서 47.3%를 달성했습니다. 특히 이 성능은 DeepSeek-V3.1-671B-A37B와 같이 규모가 훨씬 큰 오픈소스 모델을 능가하거나 필적할 뿐만 아니라, OpenAI의 o4-mini와 같은 선도적인 독점 에이전트도 넘어섰습니다.
English
LLM-based web agents show immense promise for information seeking, yet their
effectiveness on long-horizon tasks is hindered by a fundamental trade-off in
context management. Prevailing ReAct-based agents suffer from context
saturation as they accumulate noisy, raw histories, while methods that fixedly
summarize the full history at each step risk the irreversible loss of critical
details. Addressing these, we introduce AgentFold, a novel agent paradigm
centered on proactive context management, inspired by the human cognitive
process of retrospective consolidation. AgentFold treats its context as a
dynamic cognitive workspace to be actively sculpted, rather than a passive log
to be filled. At each step, it learns to execute a `folding' operation, which
manages its historical trajectory at multiple scales: it can perform granular
condensations to preserve vital, fine-grained details, or deep consolidations
to abstract away entire multi-step sub-tasks. The results on prominent
benchmarks are striking: with simple supervised fine-tuning (without continual
pre-training or RL), our AgentFold-30B-A3B agent achieves 36.2% on BrowseComp
and 47.3% on BrowseComp-ZH. Notably, this performance not only surpasses or
matches open-source models of a dramatically larger scale, such as the
DeepSeek-V3.1-671B-A37B, but also surpasses leading proprietary agents like
OpenAI's o4-mini.