ChatPaper.aiChatPaper

WebDancer: На пути к автономному агенту поиска информации

WebDancer: Towards Autonomous Information Seeking Agency

May 28, 2025
Авторы: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Аннотация

Решение сложных реальных задач требует глубокого поиска информации и многошагового рассуждения. Недавние достижения в области агентных систем, такие как Deep Research, подчеркивают потенциал автономного многошагового исследования. В данной работе мы представляем целостную парадигму для создания сквозных агентных систем поиска информации с точки зрения данных и этапов обучения. Наш подход состоит из четырех ключевых этапов: (1) построение данных для просмотра, (2) выборка траекторий, (3) тонкая настройка с учителем для эффективного холодного старта и (4) обучение с подкреплением для улучшения обобщения. Мы реализуем эту структуру в веб-агенте на основе ReAct, WebDancer. Эмпирические оценки на сложных бенчмарках поиска информации, GAIA и WebWalkerQA, демонстрируют высокую производительность WebDancer, достигая значительных результатов и подчеркивая эффективность нашей парадигмы обучения. Дополнительный анализ обучения агентов предоставляет ценные инсайты и систематические пути для разработки более мощных агентных моделей. Коды и демо будут доступны по адресу https://github.com/Alibaba-NLP/WebAgent.
English
Addressing intricate real-world problems necessitates in-depth information seeking and multi-step reasoning. Recent progress in agentic systems, exemplified by Deep Research, underscores the potential for autonomous multi-step research. In this work, we present a cohesive paradigm for building end-to-end agentic information seeking agents from a data-centric and training-stage perspective. Our approach consists of four key stages: (1) browsing data construction, (2) trajectories sampling, (3) supervised fine-tuning for effective cold start, and (4) reinforcement learning for enhanced generalisation. We instantiate this framework in a web agent based on the ReAct, WebDancer. Empirical evaluations on the challenging information seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of WebDancer, achieving considerable results and highlighting the efficacy of our training paradigm. Further analysis of agent training provides valuable insights and actionable, systematic pathways for developing more capable agentic models. The codes and demo will be released in https://github.com/Alibaba-NLP/WebAgent.

Summary

AI-Generated Summary

PDF185May 29, 2025