ChatPaper.aiChatPaper

WebWatcher: Oltrepassare le Nuove Frontiere degli Agenti di Ricerca Profonda su Visione e Linguaggio

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

August 7, 2025
Autori: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Abstract

Agenti web come Deep Research hanno dimostrato capacità cognitive sovrumane, in grado di risolvere problemi altamente complessi legati alla ricerca di informazioni. Tuttavia, la maggior parte della ricerca rimane principalmente incentrata sul testo, trascurando le informazioni visive del mondo reale. Ciò rende il Deep Research multimodale estremamente impegnativo, poiché tali agenti richiedono capacità di ragionamento molto più avanzate in termini di percezione, logica, conoscenza e utilizzo di strumenti più sofisticati rispetto agli agenti basati esclusivamente sul testo. Per affrontare questa limitazione, introduciamo WebWatcher, un agente multimodale per il Deep Research dotato di capacità potenziate di ragionamento visivo-linguistico. Sfrutta traiettorie multimodali sintetiche di alta qualità per un addestramento efficiente a freddo, utilizza vari strumenti per il ragionamento approfondito e migliora ulteriormente la generalizzazione attraverso l'apprendimento per rinforzo. Per valutare meglio le capacità degli agenti multimodali, proponiamo BrowseComp-VL, un benchmark in stile BrowseComp che richiede una complessa ricerca di informazioni che coinvolge sia dati visivi che testuali. I risultati sperimentali dimostrano che WebWatcher supera significativamente il baseline proprietario, il flusso di lavoro RAG e gli agenti open-source in quattro impegnativi benchmark VQA, aprendo la strada alla risoluzione di complessi compiti multimodali di ricerca di informazioni.
English
Web agents such as Deep Research have demonstrated superhuman cognitive abilities, capable of solving highly challenging information-seeking problems. However, most research remains primarily text-centric, overlooking visual information in the real world. This makes multimodal Deep Research highly challenging, as such agents require much stronger reasoning abilities in perception, logic, knowledge, and the use of more sophisticated tools compared to text-based agents. To address this limitation, we introduce WebWatcher, a multi-modal Agent for Deep Research equipped with enhanced visual-language reasoning capabilities. It leverages high-quality synthetic multimodal trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization through reinforcement learning. To better evaluate the capabilities of multimodal agents, we propose BrowseComp-VL, a benchmark with BrowseComp-style that requires complex information retrieval involving both visual and textual information. Experimental results show that WebWatcher significantly outperforms proprietary baseline, RAG workflow and open-source agents in four challenging VQA benchmarks, which paves the way for solving complex multimodal information-seeking tasks.
PDF1364August 13, 2025