探求から進化へ:深層研究エージェントのための積極的なオンライン探索による進化型集約ロジックのスケーリング
Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents
October 16, 2025
著者: Rui Wang, Ce Zhang, Jun-Yu Ma, Jianshu Zhang, Hongru Wang, Yi Chen, Boyang Xue, Tianqing Fang, Zhisong Zhang, Hongming Zhang, Haitao Mi, Dong Yu, Kam-Fai Wong
cs.AI
要旨
深層研究ウェブエージェントは、ウェブ環境、ファイル、マルチモーダル入力など多様な情報源から情報を取得するだけでなく、より重要なことに、洞察に富んだ研究のためには知識を厳密に分析し、集約する必要がある。しかし、既存のオープンソースの深層研究エージェントは、特定の情報を探し出すためのウェブエージェントの情報探索能力の向上に主眼を置いており、情報集約の必要性を見落としている。これにより、深層研究を支援する能力が制限されている。我々は、ウェブエージェントのための検証可能なトレーニングデータをスケーラブルに構築するための「探索から進化へ」というパラダイムを提案する。このパラダイムでは、エージェントが積極的にオンライン探索を行い、実際のウェブを探索することで根拠のある情報を収集する。収集した証拠を用いて、エージェントは12の高レベル論理タイプから操作を選択、構成、洗練することで集約プログラムを自己進化させ、検証可能なQAペアを合成する。この高レベルガイダンスから具体的な操作への進化により、50,000のウェブサイトと11のドメインにわたる10,000サンプルのデータセット「WebAggregatorQA」をスケーラブルに生成することができた。オープンソースのエージェントフレームワーク「SmolAgents」に基づき、教師ありファインチューニングの軌跡を収集し、一連の基盤モデル「WebAggregator」を開発した。WebAggregator-8BはGPT-4.1と同等の性能を示し、32BバリアントはGAIA-textにおいてGPT-4.1を10%以上上回り、Claude-3.7-sonnetに迫る性能を発揮した。さらに、ウェブエージェントの情報集約能力を評価するベンチマークの限られた可用性を考慮し、WebAggregatorQAの人間による注釈付き評価スプリットを構築し、挑戦的なテストセットとした。このベンチマークでは、Claude-3.7-sonnetは28%、GPT-4.1は25.8%しか達成できなかった。エージェントがすべての参照を取得できた場合でも、WebAggregatorQAでは依然として苦戦しており、ウェブエージェント基盤の情報集約能力を強化する必要性が浮き彫りとなった。
English
Deep research web agents not only retrieve information from diverse sources
such as web environments, files, and multimodal inputs, but more importantly,
they need to rigorously analyze and aggregate knowledge for insightful
research. However, existing open-source deep research agents predominantly
focus on enhancing information-seeking capabilities of web agents to locate
specific information, while overlooking the essential need for information
aggregation, which would limit their ability to support in-depth research. We
propose an Explore to Evolve paradigm to scalably construct verifiable training
data for web agents. Begins with proactive online exploration, an agent sources
grounded information by exploring the real web. Using the collected evidence,
the agent then self-evolves an aggregation program by selecting, composing, and
refining operations from 12 high-level logical types to synthesize a verifiable
QA pair. This evolution from high-level guidance to concrete operations allowed
us to scalably produce WebAggregatorQA, a dataset of 10K samples across 50K
websites and 11 domains. Based on an open-source agent framework, SmolAgents,
we collect supervised fine-tuning trajectories to develop a series of
foundation models, WebAggregator. WebAggregator-8B matches the performance of
GPT-4.1, while the 32B variant surpasses GPT-4.1 by more than 10% on GAIA-text
and closely approaches Claude-3.7-sonnet. Moreover, given the limited
availability of benchmarks that evaluate web agents' information aggregation
abilities, we construct a human-annotated evaluation split of WebAggregatorQA
as a challenging test set. On this benchmark, Claude-3.7-sonnet only achieves
28%, and GPT-4.1 scores 25.8%. Even when agents manage to retrieve all
references, they still struggle on WebAggregatorQA, highlighting the need to
strengthen the information aggregation capabilities of web agent foundations.