ChatPaper.aiChatPaper

WebDancer: Auf dem Weg zu autonomer Informationssuche-Agentur

WebDancer: Towards Autonomous Information Seeking Agency

May 28, 2025
Autoren: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Zusammenfassung

Die Bewältigung komplexer realer Probleme erfordert eine tiefgehende Informationssuche und mehrstufiges Denken. Jüngste Fortschritte in agentenbasierten Systemen, wie beispielsweise Deep Research, unterstreichen das Potenzial für autonome, mehrstufige Forschung. In dieser Arbeit präsentieren wir ein kohärentes Paradigma für den Aufbau von end-to-end agentenbasierten Informationssuchsystemen aus einer datenzentrierten und Trainingsphasen-Perspektive. Unser Ansatz besteht aus vier Schlüsselphasen: (1) Konstruktion von Browsing-Daten, (2) Stichprobenziehung von Trajektorien, (3) überwachtes Fein-Tuning für einen effektiven Kaltstart und (4) Verstärkungslernen zur verbesserten Generalisierung. Wir implementieren dieses Framework in einem Web-Agenten basierend auf ReAct, WebDancer. Empirische Auswertungen auf den anspruchsvollen Informationssuch-Benchmarks GAIA und WebWalkerQA demonstrieren die starke Leistung von WebDancer, die beachtliche Ergebnisse erzielt und die Wirksamkeit unseres Trainingsparadigmas hervorhebt. Eine weitere Analyse des Agententrainings liefert wertvolle Einblicke und systematische, umsetzbare Wege für die Entwicklung leistungsfähigerer agentenbasierter Modelle. Die Codes und die Demo werden unter https://github.com/Alibaba-NLP/WebAgent veröffentlicht.
English
Addressing intricate real-world problems necessitates in-depth information seeking and multi-step reasoning. Recent progress in agentic systems, exemplified by Deep Research, underscores the potential for autonomous multi-step research. In this work, we present a cohesive paradigm for building end-to-end agentic information seeking agents from a data-centric and training-stage perspective. Our approach consists of four key stages: (1) browsing data construction, (2) trajectories sampling, (3) supervised fine-tuning for effective cold start, and (4) reinforcement learning for enhanced generalisation. We instantiate this framework in a web agent based on the ReAct, WebDancer. Empirical evaluations on the challenging information seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of WebDancer, achieving considerable results and highlighting the efficacy of our training paradigm. Further analysis of agent training provides valuable insights and actionable, systematic pathways for developing more capable agentic models. The codes and demo will be released in https://github.com/Alibaba-NLP/WebAgent.

Summary

AI-Generated Summary

PDF185May 29, 2025