WebDancer: Auf dem Weg zu autonomer Informationssuche-Agentur
WebDancer: Towards Autonomous Information Seeking Agency
May 28, 2025
Autoren: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Zusammenfassung
Die Bewältigung komplexer realer Probleme erfordert eine tiefgehende Informationssuche und mehrstufiges Denken. Jüngste Fortschritte in agentenbasierten Systemen, wie beispielsweise Deep Research, unterstreichen das Potenzial für autonome, mehrstufige Forschung. In dieser Arbeit präsentieren wir ein kohärentes Paradigma für den Aufbau von end-to-end agentenbasierten Informationssuchsystemen aus einer datenzentrierten und Trainingsphasen-Perspektive. Unser Ansatz besteht aus vier Schlüsselphasen: (1) Konstruktion von Browsing-Daten, (2) Stichprobenziehung von Trajektorien, (3) überwachtes Fein-Tuning für einen effektiven Kaltstart und (4) Verstärkungslernen zur verbesserten Generalisierung. Wir implementieren dieses Framework in einem Web-Agenten basierend auf ReAct, WebDancer. Empirische Auswertungen auf den anspruchsvollen Informationssuch-Benchmarks GAIA und WebWalkerQA demonstrieren die starke Leistung von WebDancer, die beachtliche Ergebnisse erzielt und die Wirksamkeit unseres Trainingsparadigmas hervorhebt. Eine weitere Analyse des Agententrainings liefert wertvolle Einblicke und systematische, umsetzbare Wege für die Entwicklung leistungsfähigerer agentenbasierter Modelle. Die Codes und die Demo werden unter https://github.com/Alibaba-NLP/WebAgent veröffentlicht.
English
Addressing intricate real-world problems necessitates in-depth information
seeking and multi-step reasoning. Recent progress in agentic systems,
exemplified by Deep Research, underscores the potential for autonomous
multi-step research. In this work, we present a cohesive paradigm for building
end-to-end agentic information seeking agents from a data-centric and
training-stage perspective. Our approach consists of four key stages: (1)
browsing data construction, (2) trajectories sampling, (3) supervised
fine-tuning for effective cold start, and (4) reinforcement learning for
enhanced generalisation. We instantiate this framework in a web agent based on
the ReAct, WebDancer. Empirical evaluations on the challenging information
seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of
WebDancer, achieving considerable results and highlighting the efficacy of our
training paradigm. Further analysis of agent training provides valuable
insights and actionable, systematic pathways for developing more capable
agentic models. The codes and demo will be released in
https://github.com/Alibaba-NLP/WebAgent.Summary
AI-Generated Summary