ChatPaper.aiChatPaper

WebWeaver: Организация веб-масштабных данных с использованием динамических структурированных планов для открытых углубленных исследований

WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

September 16, 2025
Авторы: Zijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou
cs.AI

Аннотация

В данной работе рассматривается задача открытого глубокого исследования (Open-Ended Deep Research, OEDR), сложная проблема, в которой ИИ-агенты должны синтезировать огромные объемы информации из интернета в содержательные отчеты. Современные подходы страдают от двойных ограничений: статичные исследовательские процессы, которые разделяют планирование и сбор доказательств, и одноэтапные генеративные парадигмы, которые часто сталкиваются с проблемами длинного контекста, такими как "потеря в середине" и галлюцинации. Для решения этих проблем мы представляем WebWeaver, новую двухагентную архитектуру, которая имитирует человеческий процесс исследования. Планировщик работает в динамическом цикле, итеративно чередуя сбор доказательств с оптимизацией структуры, чтобы создать всеобъемлющий, основанный на источниках план, связанный с банком памяти доказательств. Затем писатель выполняет иерархический процесс извлечения и написания, составляя отчет по частям. Благодаря целевому извлечению только необходимых доказательств из банка памяти для каждой части, эффективно устраняются проблемы длинного контекста. Наша архитектура устанавливает новый эталон на основных бенчмарках OEDR, включая DeepResearch Bench, DeepConsult и DeepResearchGym. Эти результаты подтверждают нашу ориентированную на человека итеративную методологию, демонстрируя, что адаптивное планирование и фокусированный синтез являются ключевыми для создания высококачественных, надежных и хорошо структурированных отчетов.
English
This paper tackles open-ended deep research (OEDR), a complex challenge where AI agents must synthesize vast web-scale information into insightful reports. Current approaches are plagued by dual-fold limitations: static research pipelines that decouple planning from evidence acquisition and one-shot generation paradigms that easily suffer from long-context failure issues like "loss in the middle" and hallucinations. To address these challenges, we introduce WebWeaver, a novel dual-agent framework that emulates the human research process. The planner operates in a dynamic cycle, iteratively interleaving evidence acquisition with outline optimization to produce a comprehensive, source-grounded outline linking to a memory bank of evidence. The writer then executes a hierarchical retrieval and writing process, composing the report section by section. By performing targeted retrieval of only the necessary evidence from the memory bank for each part, it effectively mitigates long-context issues. Our framework establishes a new state-of-the-art across major OEDR benchmarks, including DeepResearch Bench, DeepConsult, and DeepResearchGym. These results validate our human-centric, iterative methodology, demonstrating that adaptive planning and focused synthesis are crucial for producing high-quality, reliable, and well-structured reports.
PDF773September 17, 2025