WebDancer: Op Weg naar Autonoom Informatiezoekend Agentschap
WebDancer: Towards Autonomous Information Seeking Agency
May 28, 2025
Auteurs: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Samenvatting
Het aanpakken van complexe problemen uit de echte wereld vereist diepgaande informatievergaring en meerstaps redeneren. Recente vooruitgang in agent-gebaseerde systemen, geïllustreerd door Deep Research, benadrukt het potentieel voor autonoom meerstaps onderzoek. In dit werk presenteren we een samenhangend paradigma voor het bouwen van end-to-end agent-gebaseerde informatievergarende agentsystemen vanuit een data-gericht en trainingsfase-perspectief. Onze aanpak bestaat uit vier belangrijke fasen: (1) constructie van browsegegevens, (2) trajectmonsters, (3) supervised fine-tuning voor een effectieve koude start, en (4) reinforcement learning voor verbeterde generalisatie. We concretiseren dit raamwerk in een webagent gebaseerd op ReAct, WebDancer. Empirische evaluaties op de uitdagende informatievergarende benchmarks, GAIA en WebWalkerQA, tonen de sterke prestaties van WebDancer aan, waarbij aanzienlijke resultaten worden behaald en de effectiviteit van ons trainingsparadigma wordt benadrukt. Verdere analyse van de agenttraining biedt waardevolle inzichten en systematische handelingspaden voor het ontwikkelen van krachtigere agent-gebaseerde modellen. De codes en demo zullen worden vrijgegeven op https://github.com/Alibaba-NLP/WebAgent.
English
Addressing intricate real-world problems necessitates in-depth information
seeking and multi-step reasoning. Recent progress in agentic systems,
exemplified by Deep Research, underscores the potential for autonomous
multi-step research. In this work, we present a cohesive paradigm for building
end-to-end agentic information seeking agents from a data-centric and
training-stage perspective. Our approach consists of four key stages: (1)
browsing data construction, (2) trajectories sampling, (3) supervised
fine-tuning for effective cold start, and (4) reinforcement learning for
enhanced generalisation. We instantiate this framework in a web agent based on
the ReAct, WebDancer. Empirical evaluations on the challenging information
seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of
WebDancer, achieving considerable results and highlighting the efficacy of our
training paradigm. Further analysis of agent training provides valuable
insights and actionable, systematic pathways for developing more capable
agentic models. The codes and demo will be released in
https://github.com/Alibaba-NLP/WebAgent.