WebWeaver: オープンエンドな深層研究のための動的アウトラインによるWebスケールのエビデンス構造化
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
September 16, 2025
著者: Zijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou
cs.AI
要旨
本論文は、AIエージェントがウェブ規模の膨大な情報を統合し、洞察に満ちたレポートを生成するという複雑な課題であるオープンエンド型深層研究(OEDR)に取り組む。現在のアプローチは二重の制約に悩まされている。すなわち、計画と証拠収集を分離した静的な研究パイプラインと、長文脈の失敗問題(「中間での喪失」や幻覚など)に陥りやすいワンショット生成パラダイムである。これらの課題に対処するため、我々は人間の研究プロセスを模倣した新しいデュアルエージェントフレームワーク「WebWeaver」を提案する。プランナーは動的なサイクルで動作し、証拠収集とアウトライン最適化を反復的に交互に行うことで、証拠のメモリバンクにリンクされた包括的でソースに基づいたアウトラインを生成する。ライターは階層的な検索と執筆プロセスを実行し、セクションごとにレポートを構成する。各部分に必要な証拠のみをメモリバンクからターゲット検索することで、長文脈問題を効果的に軽減する。我々のフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなどの主要なOEDRベンチマークにおいて新たな最先端を確立した。これらの結果は、人間中心の反復的アプローチの有効性を裏付けており、適応的な計画と焦点を絞った統合が、高品質で信頼性が高く、構造化されたレポートを生成するために重要であることを示している。
English
This paper tackles open-ended deep research (OEDR), a complex challenge where
AI agents must synthesize vast web-scale information into insightful reports.
Current approaches are plagued by dual-fold limitations: static research
pipelines that decouple planning from evidence acquisition and one-shot
generation paradigms that easily suffer from long-context failure issues like
"loss in the middle" and hallucinations. To address these challenges, we
introduce WebWeaver, a novel dual-agent framework that emulates the human
research process. The planner operates in a dynamic cycle, iteratively
interleaving evidence acquisition with outline optimization to produce a
comprehensive, source-grounded outline linking to a memory bank of evidence.
The writer then executes a hierarchical retrieval and writing process,
composing the report section by section. By performing targeted retrieval of
only the necessary evidence from the memory bank for each part, it effectively
mitigates long-context issues. Our framework establishes a new state-of-the-art
across major OEDR benchmarks, including DeepResearch Bench, DeepConsult, and
DeepResearchGym. These results validate our human-centric, iterative
methodology, demonstrating that adaptive planning and focused synthesis are
crucial for producing high-quality, reliable, and well-structured reports.