WebDancer: Rumo a uma Agência Autônoma de Busca de Informação
WebDancer: Towards Autonomous Information Seeking Agency
May 28, 2025
Autores: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumo
Resolver problemas complexos do mundo real exige uma busca profunda por informações e raciocínio em múltiplas etapas. Os recentes avanços em sistemas agentes, exemplificados pelo Deep Research, destacam o potencial para pesquisas autônomas em múltiplas etapas. Neste trabalho, apresentamos um paradigma coeso para a construção de agentes de busca de informações de ponta a ponta, sob uma perspectiva centrada em dados e no estágio de treinamento. Nossa abordagem consiste em quatro etapas principais: (1) construção de dados de navegação, (2) amostragem de trajetórias, (3) ajuste fino supervisionado para um início eficiente e (4) aprendizado por reforço para melhorar a generalização. Instanciamos esse framework em um agente web baseado no ReAct, o WebDancer. Avaliações empíricas em benchmarks desafiadores de busca de informações, como GAIA e WebWalkerQA, demonstram o forte desempenho do WebDancer, alcançando resultados consideráveis e destacando a eficácia do nosso paradigma de treinamento. Uma análise mais aprofundada do treinamento de agentes fornece insights valiosos e caminhos sistemáticos e acionáveis para o desenvolvimento de modelos agentes mais capazes. Os códigos e a demonstração serão disponibilizados em https://github.com/Alibaba-NLP/WebAgent.
English
Addressing intricate real-world problems necessitates in-depth information
seeking and multi-step reasoning. Recent progress in agentic systems,
exemplified by Deep Research, underscores the potential for autonomous
multi-step research. In this work, we present a cohesive paradigm for building
end-to-end agentic information seeking agents from a data-centric and
training-stage perspective. Our approach consists of four key stages: (1)
browsing data construction, (2) trajectories sampling, (3) supervised
fine-tuning for effective cold start, and (4) reinforcement learning for
enhanced generalisation. We instantiate this framework in a web agent based on
the ReAct, WebDancer. Empirical evaluations on the challenging information
seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of
WebDancer, achieving considerable results and highlighting the efficacy of our
training paradigm. Further analysis of agent training provides valuable
insights and actionable, systematic pathways for developing more capable
agentic models. The codes and demo will be released in
https://github.com/Alibaba-NLP/WebAgent.