WebWatcher: Het Verleggen van Nieuwe Grenzen in Visueel-Taalmatige Onderzoeksagenten

Samenvatting

Webagents zoals Deep Research hebben bovenmenselijke cognitieve vaardigheden gedemonstreerd, in staat om zeer uitdagende informatiezoekproblemen op te lossen. Het meeste onderzoek blijft echter voornamelijk tekstgericht, waarbij visuele informatie in de echte wereld over het hoofd wordt gezien. Dit maakt multimodale Deep Research zeer uitdagend, aangezien dergelijke agents veel sterkere redeneervaardigheden vereisen op het gebied van perceptie, logica, kennis en het gebruik van geavanceerdere tools in vergelijking met tekstgebaseerde agents. Om deze beperking aan te pakken, introduceren we WebWatcher, een multimodale Agent voor Deep Research uitgerust met verbeterde visueel-taalkundige redeneervaardigheden. Het maakt gebruik van hoogwaardige synthetische multimodale trajecten voor efficiënte cold start-training, benut diverse tools voor diepgaand redeneren en verbetert de generalisatie verder door middel van reinforcement learning. Om de capaciteiten van multimodale agents beter te evalueren, stellen we BrowseComp-VL voor, een benchmark met BrowseComp-stijl die complexe informatie retrieval vereist waarbij zowel visuele als tekstuele informatie betrokken is. Experimentele resultaten tonen aan dat WebWatcher aanzienlijk beter presteert dan de propriëtaire baseline, RAG-workflow en open-source agents in vier uitdagende VQA-benchmarks, wat de weg vrijmaakt voor het oplossen van complexe multimodale informatiezoektaken.

English

Web agents such as Deep Research have demonstrated superhuman cognitive abilities, capable of solving highly challenging information-seeking problems. However, most research remains primarily text-centric, overlooking visual information in the real world. This makes multimodal Deep Research highly challenging, as such agents require much stronger reasoning abilities in perception, logic, knowledge, and the use of more sophisticated tools compared to text-based agents. To address this limitation, we introduce WebWatcher, a multi-modal Agent for Deep Research equipped with enhanced visual-language reasoning capabilities. It leverages high-quality synthetic multimodal trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization through reinforcement learning. To better evaluate the capabilities of multimodal agents, we propose BrowseComp-VL, a benchmark with BrowseComp-style that requires complex information retrieval involving both visual and textual information. Experimental results show that WebWatcher significantly outperforms proprietary baseline, RAG workflow and open-source agents in four challenging VQA benchmarks, which paves the way for solving complex multimodal information-seeking tasks.

WebWatcher: Het Verleggen van Nieuwe Grenzen in Visueel-Taalmatige Onderzoeksagenten

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

Samenvatting

Support