WebSailor-V2: Superando o Abismo para Agentes Proprietários por meio de Dados Sintéticos e Aprendizado por Reforço Escalável
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
September 16, 2025
Autores: Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumo
Transcender as limitações cognitivas humanas representa uma fronteira crítica no treinamento de LLMs. Sistemas agentes proprietários como o DeepResearch demonstraram capacidades sobre-humanas em benchmarks extremamente complexos de busca de informações, como o BrowseComp, uma conquista anteriormente inatingível. Postulamos que o sucesso desses sistemas depende de um padrão de raciocínio sofisticado ausente em modelos de código aberto: a capacidade de reduzir sistematicamente a incerteza extrema ao navegar por vastas paisagens de informação. Com base nessa percepção, introduzimos o WebSailor, uma metodologia completa de pós-treinamento projetada para instilar essa capacidade crucial. Nossa abordagem envolve a geração de tarefas novas e de alta incerteza por meio de amostragem estruturada e ofuscação de informações, inicialização a frio com RFT (Reinforcement Fine-Tuning) e um algoritmo eficiente de treinamento RL (Reinforcement Learning) para agentes, denominado Duplicating Sampling Policy Optimization (DUPO). Com esse pipeline integrado, o WebSailor supera significativamente todos os agentes de código aberto em tarefas complexas de busca de informações, equiparando-se ao desempenho de agentes proprietários e reduzindo a lacuna de capacidade.
English
Transcending human cognitive limitations represents a critical frontier in
LLM training. Proprietary agentic systems like DeepResearch have demonstrated
superhuman capabilities on extremely complex information-seeking benchmarks
such as BrowseComp, a feat previously unattainable. We posit that their success
hinges on a sophisticated reasoning pattern absent in open-source models: the
ability to systematically reduce extreme uncertainty when navigating vast
information landscapes. Based on this insight, we introduce WebSailor, a
complete post-training methodology designed to instill this crucial capability.
Our approach involves generating novel, high-uncertainty tasks through
structured sampling and information obfuscation, RFT cold start, and an
efficient agentic RL training algorithm, Duplicating Sampling Policy
Optimization (DUPO). With this integrated pipeline, WebSailor significantly
outperforms all open-source agents in complex information-seeking tasks,
matching proprietary agents' performance and closing the capability gap.