WebSailor: Navegando el razonamiento sobrehumano para agentes web

Resumen

Superar las limitaciones cognitivas humanas representa una frontera crítica en el entrenamiento de modelos de lenguaje grandes (LLM). Sistemas agentes propietarios como DeepResearch han demostrado capacidades sobrehumanas en puntos de referencia extremadamente complejos de búsqueda de información, como BrowseComp, un logro previamente inalcanzable. Postulamos que su éxito depende de un patrón de razonamiento sofisticado ausente en los modelos de código abierto: la capacidad de reducir sistemáticamente la incertidumbre extrema al navegar vastos paisajes de información. Basándonos en esta idea, presentamos WebSailor, una metodología completa de posentrenamiento diseñada para inculcar esta capacidad crucial. Nuestro enfoque implica generar tareas novedosas de alta incertidumbre mediante muestreo estructurado y ofuscación de información, inicio en frío con RFT (Reinforcement Fine-Tuning) y un algoritmo eficiente de entrenamiento RL (Reinforcement Learning) agente, llamado Duplicating Sampling Policy Optimization (DUPO). Con esta canalización integrada, WebSailor supera significativamente a todos los agentes de código abierto en tareas complejas de búsqueda de información, igualando el rendimiento de los agentes propietarios y cerrando la brecha de capacidades.

English

Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all opensource agents in complex information-seeking tasks, matching proprietary agents' performance and closing the capability gap.