ChatPaper.aiChatPaper

WebDancer: 자율적 정보 탐색 에이전시를 향하여

WebDancer: Towards Autonomous Information Seeking Agency

May 28, 2025
저자: Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

초록

복잡한 현실 세계의 문제를 해결하기 위해서는 심층적인 정보 탐색과 다단계 추론이 필요합니다. 최근 에이전트 시스템의 발전, 특히 Deep Research와 같은 사례를 통해 자율적인 다단계 연구의 잠재력이 부각되고 있습니다. 본 연구에서는 데이터 중심 및 훈련 단계 관점에서 종단 간(end-to-end) 에이전트 정보 탐색 에이전트를 구축하기 위한 통합적인 패러다임을 제시합니다. 우리의 접근 방식은 네 가지 주요 단계로 구성됩니다: (1) 브라우징 데이터 구축, (2) 궤적 샘플링, (3) 효과적인 콜드 스타트를 위한 지도 미세 조정, 그리고 (4) 일반화 강화를 위한 강화 학습. 이 프레임워크를 ReAct 기반의 웹 에이전트인 WebDancer에 적용했습니다. 도전적인 정보 탐색 벤치마크인 GAIA와 WebWalkerQA에서의 실험적 평가를 통해 WebDancer의 강력한 성능을 입증했으며, 상당한 결과를 달성함으로써 우리의 훈련 패러다임의 효율성을 강조했습니다. 에이전트 훈련에 대한 추가 분석은 더 능력 있는 에이전트 모델을 개발하기 위한 가치 있는 통찰과 실행 가능한 체계적인 경로를 제공합니다. 코드와 데모는 https://github.com/Alibaba-NLP/WebAgent에서 공개될 예정입니다.
English
Addressing intricate real-world problems necessitates in-depth information seeking and multi-step reasoning. Recent progress in agentic systems, exemplified by Deep Research, underscores the potential for autonomous multi-step research. In this work, we present a cohesive paradigm for building end-to-end agentic information seeking agents from a data-centric and training-stage perspective. Our approach consists of four key stages: (1) browsing data construction, (2) trajectories sampling, (3) supervised fine-tuning for effective cold start, and (4) reinforcement learning for enhanced generalisation. We instantiate this framework in a web agent based on the ReAct, WebDancer. Empirical evaluations on the challenging information seeking benchmarks, GAIA and WebWalkerQA, demonstrate the strong performance of WebDancer, achieving considerable results and highlighting the efficacy of our training paradigm. Further analysis of agent training provides valuable insights and actionable, systematic pathways for developing more capable agentic models. The codes and demo will be released in https://github.com/Alibaba-NLP/WebAgent.

Summary

AI-Generated Summary

PDF185May 29, 2025