ChatPaper.aiChatPaper

WebSailor: Navigare il Ragionamento Sovrumano per Agenti Web

WebSailor: Navigating Super-human Reasoning for Web Agent

July 3, 2025
Autori: Kuan Li, Zhongwang Zhang, Huifeng Yin, Liwen Zhang, Litu Ou, Jialong Wu, Wenbiao Yin, Baixuan Li, Zhengwei Tao, Xinyu Wang, Weizhou Shen, Junkai Zhang, Dingchu Zhang, Xixi Wu, Yong Jiang, Ming Yan, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Abstract

Superare i limiti cognitivi umani rappresenta una frontiera cruciale nell'addestramento degli LLM. Sistemi agentici proprietari come DeepResearch hanno dimostrato capacità sovrumane su benchmark estremamente complessi per la ricerca di informazioni, come BrowseComp, un risultato precedentemente irraggiungibile. Proponiamo che il loro successo dipenda da un modello di ragionamento sofisticato assente nei modelli open-source: la capacità di ridurre sistematicamente l'incertezza estrema quando si naviga in vasti paesaggi informativi. Basandoci su questa intuizione, introduciamo WebSailor, una metodologia completa di post-addestramento progettata per instillare questa capacità cruciale. Il nostro approccio prevede la generazione di nuovi compiti ad alta incertezza attraverso campionamento strutturato e offuscamento delle informazioni, avvio a freddo con RFT e un efficiente algoritmo di addestramento RL agentico, Duplicating Sampling Policy Optimization (DUPO). Con questa pipeline integrata, WebSailor supera significativamente tutti gli agenti open-source in compiti complessi di ricerca di informazioni, eguagliando le prestazioni degli agenti proprietari e riducendo il divario di capacità.
English
Transcending human cognitive limitations represents a critical frontier in LLM training. Proprietary agentic systems like DeepResearch have demonstrated superhuman capabilities on extremely complex information-seeking benchmarks such as BrowseComp, a feat previously unattainable. We posit that their success hinges on a sophisticated reasoning pattern absent in open-source models: the ability to systematically reduce extreme uncertainty when navigating vast information landscapes. Based on this insight, we introduce WebSailor, a complete post-training methodology designed to instill this crucial capability. Our approach involves generating novel, high-uncertainty tasks through structured sampling and information obfuscation, RFT cold start, and an efficient agentic RL training algorithm, Duplicating Sampling Policy Optimization (DUPO). With this integrated pipeline, WebSailor significantly outperforms all opensource agents in complex information-seeking tasks, matching proprietary agents' performance and closing the capability gap.
PDF742July 4, 2025