WebSailor: Navegando pelo Raciocínio Super-humano para Agentes Web

Resumo

Transcender as limitações cognitivas humanas representa uma fronteira crítica no treinamento de LLMs. Sistemas agentes proprietários como o DeepResearch demonstraram capacidades sobre-humanas em benchmarks extremamente complexos de busca de informações, como o BrowseComp, um feito anteriormente inatingível. Postulamos que o sucesso desses sistemas depende de um padrão de raciocínio sofisticado ausente em modelos de código aberto: a capacidade de reduzir sistematicamente a incerteza extrema ao navegar por vastas paisagens de informação. Com base nessa percepção, introduzimos o WebSailor, uma metodologia completa de pós-treinamento projetada para instilar essa capacidade crucial. Nossa abordagem envolve a geração de tarefas novas e de alta incerteza por meio de amostragem estruturada e ofuscação de informações, inicialização a frio com RFT (Reinforcement Fine-Tuning) e um algoritmo eficiente de treinamento RL (Reinforcement Learning) para agentes, o Duplicating Sampling Policy Optimization (DUPO). Com esse pipeline integrado, o WebSailor supera significativamente todos os agentes de código aberto em tarefas complexas de busca de informações, equiparando-se ao desempenho de agentes proprietários e reduzindo a lacuna de capacidade.

English

Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all opensource agents in complex information-seeking tasks, matching proprietary agents' performance and closing the capability gap.

WebSailor: Navegando pelo Raciocínio Super-humano para Agentes Web

WebSailor: Navigating Super-human Reasoning for Web Agent

Resumo

Support