WebWatcher: Het Verleggen van Nieuwe Grenzen in Visueel-Taalmatige Onderzoeksagenten
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
August 7, 2025
Auteurs: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Samenvatting
Webagents zoals Deep Research hebben bovenmenselijke cognitieve vaardigheden gedemonstreerd, in staat om zeer uitdagende informatiezoekproblemen op te lossen. Het meeste onderzoek blijft echter voornamelijk tekstgericht, waarbij visuele informatie in de echte wereld over het hoofd wordt gezien. Dit maakt multimodale Deep Research zeer uitdagend, aangezien dergelijke agents veel sterkere redeneervaardigheden vereisen op het gebied van perceptie, logica, kennis en het gebruik van geavanceerdere tools in vergelijking met tekstgebaseerde agents. Om deze beperking aan te pakken, introduceren we WebWatcher, een multimodale Agent voor Deep Research uitgerust met verbeterde visueel-taalkundige redeneervaardigheden. Het maakt gebruik van hoogwaardige synthetische multimodale trajecten voor efficiënte cold start-training, benut diverse tools voor diepgaand redeneren en verbetert de generalisatie verder door middel van reinforcement learning. Om de capaciteiten van multimodale agents beter te evalueren, stellen we BrowseComp-VL voor, een benchmark met BrowseComp-stijl die complexe informatie retrieval vereist waarbij zowel visuele als tekstuele informatie betrokken is. Experimentele resultaten tonen aan dat WebWatcher aanzienlijk beter presteert dan de propriëtaire baseline, RAG-workflow en open-source agents in vier uitdagende VQA-benchmarks, wat de weg vrijmaakt voor het oplossen van complexe multimodale informatiezoektaken.
English
Web agents such as Deep Research have demonstrated superhuman cognitive
abilities, capable of solving highly challenging information-seeking problems.
However, most research remains primarily text-centric, overlooking visual
information in the real world. This makes multimodal Deep Research highly
challenging, as such agents require much stronger reasoning abilities in
perception, logic, knowledge, and the use of more sophisticated tools compared
to text-based agents. To address this limitation, we introduce WebWatcher, a
multi-modal Agent for Deep Research equipped with enhanced visual-language
reasoning capabilities. It leverages high-quality synthetic multimodal
trajectories for efficient cold start training, utilizes various tools for deep
reasoning, and further enhances generalization through reinforcement learning.
To better evaluate the capabilities of multimodal agents, we propose
BrowseComp-VL, a benchmark with BrowseComp-style that requires complex
information retrieval involving both visual and textual information.
Experimental results show that WebWatcher significantly outperforms proprietary
baseline, RAG workflow and open-source agents in four challenging VQA
benchmarks, which paves the way for solving complex multimodal
information-seeking tasks.