WebResearcher: Liberando a capacidade de raciocínio ilimitado em Agentes de Horizonte Longo
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents
September 16, 2025
Autores: Zile Qiao, Guoxin Chen, Xuanzhong Chen, Donglei Yu, Wenbiao Yin, Xinyu Wang, Zhen Zhang, Baixuan Li, Huifeng Yin, Kuan Li, Rui Min, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumo
Avanços recentes em sistemas de pesquisa profunda demonstraram o potencial de agentes de IA para descobrir e sintetizar conhecimento de forma autônoma a partir de fontes externas. Neste artigo, apresentamos o WebResearcher, uma nova estrutura para a construção de tais agentes por meio de dois componentes principais: (1) WebResearcher, um paradigma iterativo de pesquisa profunda que reformula a pesquisa profunda como um Processo de Decisão Markoviano, onde os agentes consolidam periodicamente descobertas em relatórios em evolução, mantendo espaços de trabalho focados, superando a sufocação de contexto e a contaminação por ruído que afetam as abordagens mono-contextuais existentes; e (2) WebFrontier, um motor de síntese de dados escalável que gera dados de treinamento de alta qualidade por meio de escalonamento de complexidade aumentado por ferramentas, permitindo a criação sistemática de tarefas de pesquisa que preenchem a lacuna entre a recuperação passiva de conhecimento e a construção ativa de conhecimento. Notavelmente, descobrimos que os dados de treinamento de nosso paradigma melhoram significativamente as capacidades de uso de ferramentas, mesmo para métodos mono-contextuais tradicionais. Além disso, nosso paradigma escala naturalmente por meio de pensamento paralelo, permitindo exploração concorrente de múltiplos agentes para conclusões mais abrangentes. Experimentos extensos em 6 benchmarks desafiadores demonstram que o WebResearcher alcança desempenho de ponta, superando até mesmo sistemas proprietários de fronteira.
English
Recent advances in deep-research systems have demonstrated the potential for
AI agents to autonomously discover and synthesize knowledge from external
sources. In this paper, we introduce WebResearcher, a novel framework for
building such agents through two key components: (1) WebResearcher, an
iterative deep-research paradigm that reformulates deep research as a Markov
Decision Process, where agents periodically consolidate findings into evolving
reports while maintaining focused workspaces, overcoming the context
suffocation and noise contamination that plague existing mono-contextual
approaches; and (2) WebFrontier, a scalable data synthesis engine that
generates high-quality training data through tool-augmented complexity
escalation, enabling systematic creation of research tasks that bridge the gap
between passive knowledge recall and active knowledge construction. Notably, we
find that the training data from our paradigm significantly enhances tool-use
capabilities even for traditional mono-contextual methods. Furthermore, our
paradigm naturally scales through parallel thinking, enabling concurrent
multi-agent exploration for more comprehensive conclusions. Extensive
experiments across 6 challenging benchmarks demonstrate that WebResearcher
achieves state-of-the-art performance, even surpassing frontier proprietary
systems.