WebWatcher: Oltrepassare le Nuove Frontiere degli Agenti di Ricerca Profonda su Visione e Linguaggio
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
August 7, 2025
Autori: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Abstract
Agenti web come Deep Research hanno dimostrato capacità cognitive sovrumane, in grado di risolvere problemi altamente complessi legati alla ricerca di informazioni. Tuttavia, la maggior parte della ricerca rimane principalmente incentrata sul testo, trascurando le informazioni visive del mondo reale. Ciò rende il Deep Research multimodale estremamente impegnativo, poiché tali agenti richiedono capacità di ragionamento molto più avanzate in termini di percezione, logica, conoscenza e utilizzo di strumenti più sofisticati rispetto agli agenti basati esclusivamente sul testo. Per affrontare questa limitazione, introduciamo WebWatcher, un agente multimodale per il Deep Research dotato di capacità potenziate di ragionamento visivo-linguistico. Sfrutta traiettorie multimodali sintetiche di alta qualità per un addestramento efficiente a freddo, utilizza vari strumenti per il ragionamento approfondito e migliora ulteriormente la generalizzazione attraverso l'apprendimento per rinforzo. Per valutare meglio le capacità degli agenti multimodali, proponiamo BrowseComp-VL, un benchmark in stile BrowseComp che richiede una complessa ricerca di informazioni che coinvolge sia dati visivi che testuali. I risultati sperimentali dimostrano che WebWatcher supera significativamente il baseline proprietario, il flusso di lavoro RAG e gli agenti open-source in quattro impegnativi benchmark VQA, aprendo la strada alla risoluzione di complessi compiti multimodali di ricerca di informazioni.
English
Web agents such as Deep Research have demonstrated superhuman cognitive
abilities, capable of solving highly challenging information-seeking problems.
However, most research remains primarily text-centric, overlooking visual
information in the real world. This makes multimodal Deep Research highly
challenging, as such agents require much stronger reasoning abilities in
perception, logic, knowledge, and the use of more sophisticated tools compared
to text-based agents. To address this limitation, we introduce WebWatcher, a
multi-modal Agent for Deep Research equipped with enhanced visual-language
reasoning capabilities. It leverages high-quality synthetic multimodal
trajectories for efficient cold start training, utilizes various tools for deep
reasoning, and further enhances generalization through reinforcement learning.
To better evaluate the capabilities of multimodal agents, we propose
BrowseComp-VL, a benchmark with BrowseComp-style that requires complex
information retrieval involving both visual and textual information.
Experimental results show that WebWatcher significantly outperforms proprietary
baseline, RAG workflow and open-source agents in four challenging VQA
benchmarks, which paves the way for solving complex multimodal
information-seeking tasks.