ChatPaper.aiChatPaper

WebSailor-V2: Superando o Abismo para Agentes Proprietários por meio de Dados Sintéticos e Aprendizado por Reforço Escalável

WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning

September 16, 2025
Autores: Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Resumo

Transcender as limitações cognitivas humanas representa uma fronteira crítica no treinamento de LLMs. Sistemas agentes proprietários como o DeepResearch demonstraram capacidades sobre-humanas em benchmarks extremamente complexos de busca de informações, como o BrowseComp, uma conquista anteriormente inatingível. Postulamos que o sucesso desses sistemas depende de um padrão de raciocínio sofisticado ausente em modelos de código aberto: a capacidade de reduzir sistematicamente a incerteza extrema ao navegar por vastas paisagens de informação. Com base nessa percepção, introduzimos o WebSailor, uma metodologia completa de pós-treinamento projetada para instilar essa capacidade crucial. Nossa abordagem envolve a geração de tarefas novas e de alta incerteza por meio de amostragem estruturada e ofuscação de informações, inicialização a frio com RFT (Reinforcement Fine-Tuning) e um algoritmo eficiente de treinamento RL (Reinforcement Learning) para agentes, denominado Duplicating Sampling Policy Optimization (DUPO). Com esse pipeline integrado, o WebSailor supera significativamente todos os agentes de código aberto em tarefas complexas de busca de informações, equiparando-se ao desempenho de agentes proprietários e reduzindo a lacuna de capacidade.
English
Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all open-source agents in complex information-seeking tasks, matching proprietary agents' performance and closing the capability gap.
PDF884September 19, 2025