WebDancer : Vers une Agence Autonome de Recherche d'Information
WebDancer: Towards Autonomous Information Seeking Agency
May 28, 2025
Auteurs: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Résumé
La résolution de problèmes complexes du monde réel nécessite une recherche approfondie d'informations et un raisonnement en plusieurs étapes. Les récents progrès dans les systèmes agentiques, illustrés par Deep Research, mettent en lumière le potentiel de la recherche autonome multi-étapes. Dans ce travail, nous présentons un paradigme cohérent pour construire des agents de recherche d'informations de bout en bout, en adoptant une perspective centrée sur les données et axée sur l'étape d'entraînement. Notre approche se compose de quatre étapes clés : (1) la construction de données de navigation, (2) l'échantillonnage de trajectoires, (3) le fine-tuning supervisé pour un démarrage à froid efficace, et (4) l'apprentissage par renforcement pour une meilleure généralisation. Nous instancions ce cadre dans un agent web basé sur ReAct, WebDancer. Les évaluations empiriques sur les benchmarks exigeants de recherche d'informations, GAIA et WebWalkerQA, démontrent les performances solides de WebDancer, obtenant des résultats significatifs et mettant en évidence l'efficacité de notre paradigme d'entraînement. Une analyse approfondie de l'entraînement des agents fournit des insights précieux et des voies systématiques et actionnables pour développer des modèles agentiques plus performants. Les codes et la démo seront disponibles sur https://github.com/Alibaba-NLP/WebAgent.
English
Addressing intricate real-world problems necessitates in-depth information
seeking and multi-step reasoning. Recent progress in agentic systems,
exemplified by Deep Research, underscores the potential for autonomous
multi-step research. In this work, we present a cohesive paradigm for building
end-to-end agentic information seeking agents from a data-centric and
training-stage perspective. Our approach consists of four key stages: (1)
browsing data construction, (2) trajectories sampling, (3) supervised
fine-tuning for effective cold start, and (4) reinforcement learning for
enhanced generalisation. We instantiate this framework in a web agent based on
the ReAct, WebDancer. Empirical evaluations on the challenging information
seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of
WebDancer, achieving considerable results and highlighting the efficacy of our
training paradigm. Further analysis of agent training provides valuable
insights and actionable, systematic pathways for developing more capable
agentic models. The codes and demo will be released in
https://github.com/Alibaba-NLP/WebAgent.Summary
AI-Generated Summary