WebDancer: Op Weg naar Autonoom Informatiezoekend Agentschap

Samenvatting

Het aanpakken van complexe problemen uit de echte wereld vereist diepgaande informatievergaring en meerstaps redeneren. Recente vooruitgang in agent-gebaseerde systemen, geïllustreerd door Deep Research, benadrukt het potentieel voor autonoom meerstaps onderzoek. In dit werk presenteren we een samenhangend paradigma voor het bouwen van end-to-end agent-gebaseerde informatievergarende agentsystemen vanuit een data-gericht en trainingsfase-perspectief. Onze aanpak bestaat uit vier belangrijke fasen: (1) constructie van browsegegevens, (2) trajectmonsters, (3) supervised fine-tuning voor een effectieve koude start, en (4) reinforcement learning voor verbeterde generalisatie. We concretiseren dit raamwerk in een webagent gebaseerd op ReAct, WebDancer. Empirische evaluaties op de uitdagende informatievergarende benchmarks, GAIA en WebWalkerQA, tonen de sterke prestaties van WebDancer aan, waarbij aanzienlijke resultaten worden behaald en de effectiviteit van ons trainingsparadigma wordt benadrukt. Verdere analyse van de agenttraining biedt waardevolle inzichten en systematische handelingspaden voor het ontwikkelen van krachtigere agent-gebaseerde modellen. De codes en demo zullen worden vrijgegeven op https://github.com/Alibaba-NLP/WebAgent.

English

Addressing intricate real-world problems necessitates in-depth information seeking and multi-step reasoning. Recent progress in agentic systems, exemplified by Deep Research, underscores the potential for autonomous multi-step research. In this work, we present a cohesive paradigm for building end-to-end agentic information seeking agents from a data-centric and training-stage perspective. Our approach consists of four key stages: (1) browsing data construction, (2) trajectories sampling, (3) supervised fine-tuning for effective cold start, and (4) reinforcement learning for enhanced generalisation. We instantiate this framework in a web agent based on the ReAct, WebDancer. Empirical evaluations on the challenging information seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of WebDancer, achieving considerable results and highlighting the efficacy of our training paradigm. Further analysis of agent training provides valuable insights and actionable, systematic pathways for developing more capable agentic models. The codes and demo will be released in https://github.com/Alibaba-NLP/WebAgent.

WebDancer: Op Weg naar Autonoom Informatiezoekend Agentschap

WebDancer: Towards Autonomous Information Seeking Agency

Samenvatting

Support