WebDancer: Rumo a uma Agência Autônoma de Busca de Informação

Resumo

Resolver problemas complexos do mundo real exige uma busca profunda por informações e raciocínio em múltiplas etapas. Os recentes avanços em sistemas agentes, exemplificados pelo Deep Research, destacam o potencial para pesquisas autônomas em múltiplas etapas. Neste trabalho, apresentamos um paradigma coeso para a construção de agentes de busca de informações de ponta a ponta, sob uma perspectiva centrada em dados e no estágio de treinamento. Nossa abordagem consiste em quatro etapas principais: (1) construção de dados de navegação, (2) amostragem de trajetórias, (3) ajuste fino supervisionado para um início eficiente e (4) aprendizado por reforço para melhorar a generalização. Instanciamos esse framework em um agente web baseado no ReAct, o WebDancer. Avaliações empíricas em benchmarks desafiadores de busca de informações, como GAIA e WebWalkerQA, demonstram o forte desempenho do WebDancer, alcançando resultados consideráveis e destacando a eficácia do nosso paradigma de treinamento. Uma análise mais aprofundada do treinamento de agentes fornece insights valiosos e caminhos sistemáticos e acionáveis para o desenvolvimento de modelos agentes mais capazes. Os códigos e a demonstração serão disponibilizados em https://github.com/Alibaba-NLP/WebAgent.

English

Addressing intricate real-world problems necessitates in-depth information seeking and multi-step reasoning. Recent progress in agentic systems, exemplified by Deep Research, underscores the potential for autonomous multi-step research. In this work, we present a cohesive paradigm for building end-to-end agentic information seeking agents from a data-centric and training-stage perspective. Our approach consists of four key stages: (1) browsing data construction, (2) trajectories sampling, (3) supervised fine-tuning for effective cold start, and (4) reinforcement learning for enhanced generalisation. We instantiate this framework in a web agent based on the ReAct, WebDancer. Empirical evaluations on the challenging information seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of WebDancer, achieving considerable results and highlighting the efficacy of our training paradigm. Further analysis of agent training provides valuable insights and actionable, systematic pathways for developing more capable agentic models. The codes and demo will be released in https://github.com/Alibaba-NLP/WebAgent.

WebDancer: Rumo a uma Agência Autônoma de Busca de Informação

WebDancer: Towards Autonomous Information Seeking Agency

Resumo

Support