ChatPaper.aiChatPaper

WebWeaver: Estruturando Evidências em Escala Web com Esquemas Dinâmicos para Pesquisa Profunda e Aberta

WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

September 16, 2025
Autores: Zijian Li, Xin Guan, Bo Zhang, Shen Huang, Houquan Zhou, Shaopeng Lai, Ming Yan, Yong Jiang, Pengjun Xie, Fei Huang, Jun Zhang, Jingren Zhou
cs.AI

Resumo

Este artigo aborda a pesquisa profunda de natureza aberta (OEDR, na sigla em inglês), um desafio complexo no qual agentes de IA devem sintetizar vastas informações em escala da web em relatórios perspicazes. As abordagens atuais são prejudicadas por limitações duplas: pipelines de pesquisa estáticos que desacoplam o planejamento da aquisição de evidências e paradigmas de geração única que facilmente sofrem com problemas de falha em contextos longos, como "perda no meio" e alucinações. Para enfrentar esses desafios, introduzimos o WebWeaver, uma nova estrutura de agente duplo que emula o processo de pesquisa humana. O planejador opera em um ciclo dinâmico, intercalando iterativamente a aquisição de evidências com a otimização de esboços para produzir um esboço abrangente e fundamentado em fontes, vinculado a um banco de memória de evidências. O escritor, então, executa um processo hierárquico de recuperação e redação, compondo o relatório seção por seção. Ao realizar a recuperação direcionada apenas das evidências necessárias do banco de memória para cada parte, ele efetivamente mitiga problemas de contexto longo. Nossa estrutura estabelece um novo estado da arte em benchmarks importantes de OEDR, incluindo DeepResearch Bench, DeepConsult e DeepResearchGym. Esses resultados validam nossa metodologia iterativa e centrada no ser humano, demonstrando que o planejamento adaptativo e a síntese focada são cruciais para a produção de relatórios de alta qualidade, confiáveis e bem estruturados.
English
This paper tackles open-ended deep research (OEDR), a complex challenge where AI agents must synthesize vast web-scale information into insightful reports. Current approaches are plagued by dual-fold limitations: static research pipelines that decouple planning from evidence acquisition and one-shot generation paradigms that easily suffer from long-context failure issues like "loss in the middle" and hallucinations. To address these challenges, we introduce WebWeaver, a novel dual-agent framework that emulates the human research process. The planner operates in a dynamic cycle, iteratively interleaving evidence acquisition with outline optimization to produce a comprehensive, source-grounded outline linking to a memory bank of evidence. The writer then executes a hierarchical retrieval and writing process, composing the report section by section. By performing targeted retrieval of only the necessary evidence from the memory bank for each part, it effectively mitigates long-context issues. Our framework establishes a new state-of-the-art across major OEDR benchmarks, including DeepResearch Bench, DeepConsult, and DeepResearchGym. These results validate our human-centric, iterative methodology, demonstrating that adaptive planning and focused synthesis are crucial for producing high-quality, reliable, and well-structured reports.
PDF1045September 19, 2025