WebWatcher: Ein neuer Meilenstein in der Vision-Sprache-Tiefenforschung
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
August 7, 2025
papers.authors: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
papers.abstract
Web-Agenten wie Deep Research haben übermenschliche kognitive Fähigkeiten demonstriert und sind in der Lage, äußerst anspruchsvolle informationssuchende Probleme zu lösen. Die meisten Forschungen bleiben jedoch hauptsächlich textzentriert und übersehen visuelle Informationen in der realen Welt. Dies macht multimodales Deep Research äußerst herausfordernd, da solche Agenten viel stärkere Fähigkeiten in den Bereichen Wahrnehmung, Logik, Wissen und der Nutzung anspruchsvollerer Werkzeuge im Vergleich zu textbasierten Agenten benötigen. Um diese Einschränkung zu überwinden, stellen wir WebWatcher vor, einen multimodalen Agenten für Deep Research, der mit erweiterten visuell-sprachlichen Fähigkeiten ausgestattet ist. Er nutzt hochwertige synthetische multimodale Trajektorien für ein effizientes Cold-Start-Training, verwendet verschiedene Werkzeuge für tiefgreifendes Schlussfolgern und verbessert die Generalisierung durch Reinforcement Learning weiter. Um die Fähigkeiten multimodaler Agenten besser bewerten zu können, schlagen wir BrowseComp-VL vor, einen Benchmark im BrowseComp-Stil, der komplexe Informationsbeschaffung unter Einbeziehung sowohl visueller als auch textueller Informationen erfordert. Experimentelle Ergebnisse zeigen, dass WebWatcher proprietäre Baselines, RAG-Workflows und Open-Source-Agenten in vier anspruchsvollen VQA-Benchmarks deutlich übertrifft, was den Weg zur Lösung komplexer multimodaler informationssuchender Aufgaben ebnet.
English
Web agents such as Deep Research have demonstrated superhuman cognitive
abilities, capable of solving highly challenging information-seeking problems.
However, most research remains primarily text-centric, overlooking visual
information in the real world. This makes multimodal Deep Research highly
challenging, as such agents require much stronger reasoning abilities in
perception, logic, knowledge, and the use of more sophisticated tools compared
to text-based agents. To address this limitation, we introduce WebWatcher, a
multi-modal Agent for Deep Research equipped with enhanced visual-language
reasoning capabilities. It leverages high-quality synthetic multimodal
trajectories for efficient cold start training, utilizes various tools for deep
reasoning, and further enhances generalization through reinforcement learning.
To better evaluate the capabilities of multimodal agents, we propose
BrowseComp-VL, a benchmark with BrowseComp-style that requires complex
information retrieval involving both visual and textual information.
Experimental results show that WebWatcher significantly outperforms proprietary
baseline, RAG workflow and open-source agents in four challenging VQA
benchmarks, which paves the way for solving complex multimodal
information-seeking tasks.