WebSailor-V2: 합성 데이터와 확장 가능한 강화 학습을 통해 독점 에이전트 간의 간극 해소
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
September 16, 2025
저자: Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
초록
인간의 인지적 한계를 초월하는 것은 LLM(대형 언어 모델) 훈련에서 중요한 전선을 나타냅니다. DeepResearch와 같은 독점 에이전트 시스템은 BrowseComp와 같은 극도로 복잡한 정보 탐색 벤치마크에서 초인적 능력을 입증했으며, 이는 이전에는 달성할 수 없었던 업적입니다. 우리는 이러한 성공이 오픈소스 모델에는 없는 정교한 추론 패턴, 즉 방대한 정보 환경을 탐색할 때 극도의 불확실성을 체계적으로 줄이는 능력에 달려 있다고 주장합니다. 이러한 통찰을 바탕으로, 우리는 이 중요한 능력을 심어주기 위해 완전한 사후 훈련 방법론인 WebSailor를 소개합니다. 우리의 접근 방식은 구조화된 샘플링과 정보 은폐를 통해 새로운 고불확실성 작업을 생성하고, RFT(Reward Fine-Tuning) 콜드 스타트, 그리고 효율적인 에이전트 RL(강화 학습) 훈련 알고리즘인 Duplicating Sampling Policy Optimization(DUPO)을 포함합니다. 이 통합 파이프라인을 통해 WebSailor는 복잡한 정보 탐색 작업에서 모든 오픈소스 에이전트를 크게 능가하며, 독점 에이전트의 성능에 맞추고 능력 격차를 줄입니다.
English
Transcending human cognitive limitations represents a critical frontier in
LLM training. Proprietary agentic systems like DeepResearch have demonstrated
superhuman capabilities on extremely complex information-seeking benchmarks
such as BrowseComp, a feat previously unattainable. We posit that their success
hinges on a sophisticated reasoning pattern absent in open-source models: the
ability to systematically reduce extreme uncertainty when navigating vast
information landscapes. Based on this insight, we introduce WebSailor, a
complete post-training methodology designed to instill this crucial capability.
Our approach involves generating novel, high-uncertainty tasks through
structured sampling and information obfuscation, RFT cold start, and an
efficient agentic RL training algorithm, Duplicating Sampling Policy
Optimization (DUPO). With this integrated pipeline, WebSailor significantly
outperforms all open-source agents in complex information-seeking tasks,
matching proprietary agents' performance and closing the capability gap.