탐색을 통한 진화: 심층 연구 에이전트를 위한 적극적 온라인 탐색을 통한 진화적 집계 논리 확장
Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents
October 16, 2025
저자: Rui Wang, Ce Zhang, Jun-Yu Ma, Jianshu Zhang, Hongru Wang, Yi Chen, Boyang Xue, Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu, Kam-Fai Wong
cs.AI
초록
심층 연구 웹 에이전트는 웹 환경, 파일, 멀티모달 입력 등 다양한 소스로부터 정보를 검색할 뿐만 아니라, 무엇보다도 엄격하게 지식을 분석하고 통합하여 통찰력 있는 연구를 수행할 수 있어야 한다. 그러나 기존의 오픈소스 심층 연구 에이전트는 주로 웹 에이전트의 정보 탐색 능력을 강화하여 특정 정보를 찾는 데 초점을 맞추고 있으며, 정보 통합이라는 필수적인 요구를 간과함으로써 심층 연구를 지원하는 데 한계를 보이고 있다. 우리는 웹 에이전트를 위한 검증 가능한 훈련 데이터를 확장 가능하게 구축하기 위해 Explore to Evolve 패러다임을 제안한다. 이 패러다임은 적극적인 온라인 탐색으로 시작되며, 에이전트는 실제 웹을 탐색하여 근거 있는 정보를 수집한다. 수집된 증거를 바탕으로, 에이전트는 12가지 고수준 논리 유형에서 작업을 선택, 구성, 정제하여 검증 가능한 QA 쌍을 합성함으로써 통합 프로그램을 자체적으로 진화시킨다. 이러한 고수준 지침에서 구체적인 작업으로의 진화를 통해 우리는 50,000개 웹사이트와 11개 도메인에 걸쳐 10,000개 샘플로 구성된 WebAggregatorQA 데이터셋을 확장 가능하게 생산할 수 있었다. 오픈소스 에이전트 프레임워크인 SmolAgents를 기반으로, 우리는 지도 미세 조정 궤적을 수집하여 일련의 기반 모델인 WebAggregator를 개발했다. WebAggregator-8B는 GPT-4.1의 성능과 일치하며, 32B 변형은 GAIA-text에서 GPT-4.1을 10% 이상 능가하고 Claude-3.7-sonnet에 근접한 성능을 보인다. 또한, 웹 에이전트의 정보 통합 능력을 평가할 수 있는 벤치마크의 제한된 가용성을 고려하여, 우리는 WebAggregatorQA의 인간 주석 평가 분할을 도전적인 테스트 세트로 구성했다. 이 벤치마크에서 Claude-3.7-sonnet은 28%에 그쳤고, GPT-4.1은 25.8%를 기록했다. 에이전트가 모든 참조를 검색하는 데 성공하더라도 WebAggregatorQA에서 여전히 어려움을 겪는 것은 웹 에이전트 기반의 정보 통합 능력을 강화할 필요가 있음을 강조한다.
English
Deep research web agents not only retrieve information from diverse sources
such as web environments, files, and multimodal inputs, but more importantly,
they need to rigorously analyze and aggregate knowledge for insightful
research. However, existing open-source deep research agents predominantly
focus on enhancing information-seeking capabilities of web agents to locate
specific information, while overlooking the essential need for information
aggregation, which would limit their ability to support in-depth research. We
propose an Explore to Evolve paradigm to scalably construct verifiable training
data for web agents. Begins with proactive online exploration, an agent sources
grounded information by exploring the real web. Using the collected evidence,
the agent then self-evolves an aggregation program by selecting, composing, and
refining operations from 12 high-level logical types to synthesize a verifiable
QA pair. This evolution from high-level guidance to concrete operations allowed
us to scalably produce WebAggregatorQA, a dataset of 10K samples across 50K
websites and 11 domains. Based on an open-source agent framework, SmolAgents,
we collect supervised fine-tuning trajectories to develop a series of
foundation models, WebAggregator. WebAggregator-8B matches the performance of
GPT-4.1, while the 32B variant surpasses GPT-4.1 by more than 10% on GAIA-text
and closely approaches Claude-3.7-sonnet. Moreover, given the limited
availability of benchmarks that evaluate web agents' information aggregation
abilities, we construct a human-annotated evaluation split of WebAggregatorQA
as a challenging test set. On this benchmark, Claude-3.7-sonnet only achieves
28%, and GPT-4.1 scores 25.8%. Even when agents manage to retrieve all
references, they still struggle on WebAggregatorQA, highlighting the need to
strengthen the information aggregation capabilities of web agent foundations.