WebSailor-V2: Cerrando la brecha con agentes propietarios mediante datos sintéticos y aprendizaje por refuerzo escalable
WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
September 16, 2025
Autores: Kuan Li, Zhongwang Zhang, Huifeng Yin, Rui Ye, Yida Zhao, Liwen Zhang, Litu Ou, Dingchu Zhang, Xixi Wu, Jialong Wu, Xinyu Wang, Zile Qiao, Zhen Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumen
Superar las limitaciones cognitivas humanas representa una frontera crítica en el entrenamiento de modelos de lenguaje grandes (LLM). Sistemas agentes propietarios como DeepResearch han demostrado capacidades sobrehumanas en puntos de referencia extremadamente complejos de búsqueda de información, como BrowseComp, un logro previamente inalcanzable. Postulamos que su éxito depende de un patrón de razonamiento sofisticado ausente en los modelos de código abierto: la capacidad de reducir sistemáticamente la incertidumbre extrema al navegar por vastos paisajes de información. Basándonos en esta idea, presentamos WebSailor, una metodología completa de posentrenamiento diseñada para inculcar esta capacidad crucial. Nuestro enfoque implica generar tareas novedosas de alta incertidumbre mediante muestreo estructurado y ofuscación de información, inicio en frío con RFT (Reinforcement Fine-Tuning), y un algoritmo eficiente de entrenamiento RL (Reinforcement Learning) agente, Optimización de Política de Muestreo Duplicado (DUPO). Con esta canalización integrada, WebSailor supera significativamente a todos los agentes de código abierto en tareas complejas de búsqueda de información, igualando el rendimiento de los agentes propietarios y cerrando la brecha de capacidades.
English
Transcending human cognitive limitations represents a critical frontier in
LLM training. Proprietary agentic systems like DeepResearch have demonstrated
superhuman capabilities on extremely complex information-seeking benchmarks
such as BrowseComp, a feat previously unattainable. We posit that their success
hinges on a sophisticated reasoning pattern absent in open-source models: the
ability to systematically reduce extreme uncertainty when navigating vast
information landscapes. Based on this insight, we introduce WebSailor, a
complete post-training methodology designed to instill this crucial capability.
Our approach involves generating novel, high-uncertainty tasks through
structured sampling and information obfuscation, RFT cold start, and an
efficient agentic RL training algorithm, Duplicating Sampling Policy
Optimization (DUPO). With this integrated pipeline, WebSailor significantly
outperforms all open-source agents in complex information-seeking tasks,
matching proprietary agents' performance and closing the capability gap.