WebWeaver: 개방형 심층 연구를 위한 동적 개요를 활용한 웹 규모 증거 구조화
WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
September 16, 2025
저자: Zijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou
cs.AI
초록
본 논문은 AI 에이전트가 방대한 웹 규모의 정보를 통합하여 통찰력 있는 보고서를 작성해야 하는 복잡한 과제인 개방형 심층 연구(OEDR)를 다룹니다. 현재의 접근 방식은 계획과 증거 수집을 분리하는 정적 연구 파이프라인과 "중간에서의 손실" 및 환각 현상과 같은 장문맥 실패 문제를 쉽게 겪는 일회성 생성 패러다임이라는 이중적 한계에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 인간의 연구 과정을 모방한 새로운 이중 에이전트 프레임워크인 WebWeaver를 소개합니다. 플래너는 동적 사이클에서 작동하며, 증거 수집과 개요 최적화를 반복적으로 교차시켜 증거 메모리 뱅크에 연결된 포괄적이고 출처가 명확한 개요를 생성합니다. 이후 작가 계층은 계층적 검색 및 작성 프로세스를 실행하여 보고서를 섹션별로 구성합니다. 각 부분에 대해 메모리 뱅크에서 필요한 증거만을 대상으로 검색함으로써 장문맥 문제를 효과적으로 완화합니다. 우리의 프레임워크는 DeepResearch Bench, DeepConsult, DeepResearchGym 등 주요 OEDR 벤치마크에서 새로운 최첨단 성과를 달성했습니다. 이러한 결과는 인간 중심의 반복적 방법론을 검증하며, 적응형 계획과 집중적 통합이 고품질, 신뢰할 수 있고 잘 구조화된 보고서를 생산하는 데 필수적임을 입증합니다.
English
This paper tackles open-ended deep research (OEDR), a complex challenge where
AI agents must synthesize vast web-scale information into insightful reports.
Current approaches are plagued by dual-fold limitations: static research
pipelines that decouple planning from evidence acquisition and one-shot
generation paradigms that easily suffer from long-context failure issues like
"loss in the middle" and hallucinations. To address these challenges, we
introduce WebWeaver, a novel dual-agent framework that emulates the human
research process. The planner operates in a dynamic cycle, iteratively
interleaving evidence acquisition with outline optimization to produce a
comprehensive, source-grounded outline linking to a memory bank of evidence.
The writer then executes a hierarchical retrieval and writing process,
composing the report section by section. By performing targeted retrieval of
only the necessary evidence from the memory bank for each part, it effectively
mitigates long-context issues. Our framework establishes a new state-of-the-art
across major OEDR benchmarks, including DeepResearch Bench, DeepConsult, and
DeepResearchGym. These results validate our human-centric, iterative
methodology, demonstrating that adaptive planning and focused synthesis are
crucial for producing high-quality, reliable, and well-structured reports.