WebSailor: Navegando el razonamiento sobrehumano para agentes web
WebSailor: Navigating Super-human Reasoning for Web Agent
July 3, 2025
Autores: Kuan Li, Zhongwang Zhang, Huifeng Yin, Liwen Zhang, Litu Ou, Jialong Wu, Wenbiao Yin, Baixuan Li, Zhengwei Tao, Xinyu Wang, Weizhou Shen, Junkai Zhang, Dingchu Zhang, Xixi Wu, Yong Jiang, Ming Yan, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumen
Superar las limitaciones cognitivas humanas representa una frontera crítica en el entrenamiento de modelos de lenguaje grandes (LLM). Sistemas agentes propietarios como DeepResearch han demostrado capacidades sobrehumanas en puntos de referencia extremadamente complejos de búsqueda de información, como BrowseComp, un logro previamente inalcanzable. Postulamos que su éxito depende de un patrón de razonamiento sofisticado ausente en los modelos de código abierto: la capacidad de reducir sistemáticamente la incertidumbre extrema al navegar vastos paisajes de información. Basándonos en esta idea, presentamos WebSailor, una metodología completa de posentrenamiento diseñada para inculcar esta capacidad crucial. Nuestro enfoque implica generar tareas novedosas de alta incertidumbre mediante muestreo estructurado y ofuscación de información, inicio en frío con RFT (Reinforcement Fine-Tuning) y un algoritmo eficiente de entrenamiento RL (Reinforcement Learning) agente, llamado Duplicating Sampling Policy Optimization (DUPO). Con esta canalización integrada, WebSailor supera significativamente a todos los agentes de código abierto en tareas complejas de búsqueda de información, igualando el rendimiento de los agentes propietarios y cerrando la brecha de capacidades.
English
Transcending human cognitive limitations represents a critical frontier in
LLM training. Proprietary agentic systems like DeepResearch have demonstrated
superhuman capabilities on extremely complex information-seeking benchmarks
such as BrowseComp, a feat previously unattainable. We posit that their success
hinges on a sophisticated reasoning pattern absent in open-source models: the
ability to systematically reduce extreme uncertainty when navigating vast
information landscapes. Based on this insight, we introduce WebSailor, a
complete post-training methodology designed to instill this crucial capability.
Our approach involves generating novel, high-uncertainty tasks through
structured sampling and information obfuscation, RFT cold start, and an
efficient agentic RL training algorithm, Duplicating Sampling Policy
Optimization (DUPO). With this integrated pipeline, WebSailor significantly
outperforms all opensource agents in complex information-seeking tasks,
matching proprietary agents' performance and closing the capability gap.