WebDancer: Verso un'agenzia autonoma per la ricerca di informazioni
WebDancer: Towards Autonomous Information Seeking Agency
May 28, 2025
Autori: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Abstract
Affrontare problemi complessi del mondo reale richiede una ricerca approfondita delle informazioni e un ragionamento a più fasi. I recenti progressi nei sistemi agentici, esemplificati da Deep Research, sottolineano il potenziale per una ricerca autonoma a più fasi. In questo lavoro, presentiamo un paradigma coerente per costruire agenti di ricerca delle informazioni end-to-end da una prospettiva centrata sui dati e sulle fasi di addestramento. Il nostro approccio consiste in quattro fasi chiave: (1) costruzione dei dati di navigazione, (2) campionamento delle traiettorie, (3) fine-tuning supervisionato per un avvio efficace a freddo, e (4) apprendimento per rinforzo per una migliore generalizzazione. Istanziamo questo framework in un agente web basato su ReAct, WebDancer. Le valutazioni empiriche sui benchmark impegnativi di ricerca delle informazioni, GAIA e WebWalkerQA, dimostrano le prestazioni solide di WebDancer, ottenendo risultati considerevoli e evidenziando l'efficacia del nostro paradigma di addestramento. Un'ulteriore analisi dell'addestramento degli agenti fornisce intuizioni preziose e percorsi sistematici e praticabili per sviluppare modelli agentici più capaci. I codici e la demo saranno rilasciati su https://github.com/Alibaba-NLP/WebAgent.
English
Addressing intricate real-world problems necessitates in-depth information
seeking and multi-step reasoning. Recent progress in agentic systems,
exemplified by Deep Research, underscores the potential for autonomous
multi-step research. In this work, we present a cohesive paradigm for building
end-to-end agentic information seeking agents from a data-centric and
training-stage perspective. Our approach consists of four key stages: (1)
browsing data construction, (2) trajectories sampling, (3) supervised
fine-tuning for effective cold start, and (4) reinforcement learning for
enhanced generalisation. We instantiate this framework in a web agent based on
the ReAct, WebDancer. Empirical evaluations on the challenging information
seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of
WebDancer, achieving considerable results and highlighting the efficacy of our
training paradigm. Further analysis of agent training provides valuable
insights and actionable, systematic pathways for developing more capable
agentic models. The codes and demo will be released in
https://github.com/Alibaba-NLP/WebAgent.