ChatPaper.aiChatPaper

WebWatcher: Ein neuer Meilenstein in der Vision-Sprache-Tiefenforschung

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

August 7, 2025
papers.authors: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

papers.abstract

Web-Agenten wie Deep Research haben übermenschliche kognitive Fähigkeiten demonstriert und sind in der Lage, äußerst anspruchsvolle informationssuchende Probleme zu lösen. Die meisten Forschungen bleiben jedoch hauptsächlich textzentriert und übersehen visuelle Informationen in der realen Welt. Dies macht multimodales Deep Research äußerst herausfordernd, da solche Agenten viel stärkere Fähigkeiten in den Bereichen Wahrnehmung, Logik, Wissen und der Nutzung anspruchsvollerer Werkzeuge im Vergleich zu textbasierten Agenten benötigen. Um diese Einschränkung zu überwinden, stellen wir WebWatcher vor, einen multimodalen Agenten für Deep Research, der mit erweiterten visuell-sprachlichen Fähigkeiten ausgestattet ist. Er nutzt hochwertige synthetische multimodale Trajektorien für ein effizientes Cold-Start-Training, verwendet verschiedene Werkzeuge für tiefgreifendes Schlussfolgern und verbessert die Generalisierung durch Reinforcement Learning weiter. Um die Fähigkeiten multimodaler Agenten besser bewerten zu können, schlagen wir BrowseComp-VL vor, einen Benchmark im BrowseComp-Stil, der komplexe Informationsbeschaffung unter Einbeziehung sowohl visueller als auch textueller Informationen erfordert. Experimentelle Ergebnisse zeigen, dass WebWatcher proprietäre Baselines, RAG-Workflows und Open-Source-Agenten in vier anspruchsvollen VQA-Benchmarks deutlich übertrifft, was den Weg zur Lösung komplexer multimodaler informationssuchender Aufgaben ebnet.
English
Web agents such as Deep Research have demonstrated superhuman cognitive abilities, capable of solving highly challenging information-seeking problems. However, most research remains primarily text-centric, overlooking visual information in the real world. This makes multimodal Deep Research highly challenging, as such agents require much stronger reasoning abilities in perception, logic, knowledge, and the use of more sophisticated tools compared to text-based agents. To address this limitation, we introduce WebWatcher, a multi-modal Agent for Deep Research equipped with enhanced visual-language reasoning capabilities. It leverages high-quality synthetic multimodal trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization through reinforcement learning. To better evaluate the capabilities of multimodal agents, we propose BrowseComp-VL, a benchmark with BrowseComp-style that requires complex information retrieval involving both visual and textual information. Experimental results show that WebWatcher significantly outperforms proprietary baseline, RAG workflow and open-source agents in four challenging VQA benchmarks, which paves the way for solving complex multimodal information-seeking tasks.
PDF1054August 13, 2025