WebWatcher: Rompiendo Nuevas Fronteras en el Agente de Investigación Profunda de Visión y Lenguaje
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
August 7, 2025
Autores: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumen
Los agentes web como Deep Research han demostrado capacidades cognitivas sobrehumanas, capaces de resolver problemas altamente desafiantes de búsqueda de información. Sin embargo, la mayoría de las investigaciones siguen siendo principalmente centradas en texto, pasando por alto la información visual del mundo real. Esto hace que el Deep Research multimodal sea extremadamente desafiante, ya que dichos agentes requieren habilidades de razonamiento mucho más fuertes en percepción, lógica, conocimiento y el uso de herramientas más sofisticadas en comparación con los agentes basados en texto. Para abordar esta limitación, presentamos WebWatcher, un agente multimodal para Deep Research equipado con capacidades mejoradas de razonamiento visual-lingüístico. Este aprovecha trayectorias multimodales sintéticas de alta calidad para un entrenamiento eficiente de arranque en frío, utiliza diversas herramientas para un razonamiento profundo y mejora aún más la generalización mediante aprendizaje por refuerzo. Para evaluar mejor las capacidades de los agentes multimodales, proponemos BrowseComp-VL, un punto de referencia con estilo BrowseComp que requiere una recuperación compleja de información que involucra tanto datos visuales como textuales. Los resultados experimentales muestran que WebWatcher supera significativamente a la línea base propietaria, al flujo de trabajo RAG y a los agentes de código abierto en cuatro desafiantes puntos de referencia de VQA, lo que allana el camino para resolver tareas complejas de búsqueda de información multimodal.
English
Web agents such as Deep Research have demonstrated superhuman cognitive
abilities, capable of solving highly challenging information-seeking problems.
However, most research remains primarily text-centric, overlooking visual
information in the real world. This makes multimodal Deep Research highly
challenging, as such agents require much stronger reasoning abilities in
perception, logic, knowledge, and the use of more sophisticated tools compared
to text-based agents. To address this limitation, we introduce WebWatcher, a
multi-modal Agent for Deep Research equipped with enhanced visual-language
reasoning capabilities. It leverages high-quality synthetic multimodal
trajectories for efficient cold start training, utilizes various tools for deep
reasoning, and further enhances generalization through reinforcement learning.
To better evaluate the capabilities of multimodal agents, we propose
BrowseComp-VL, a benchmark with BrowseComp-style that requires complex
information retrieval involving both visual and textual information.
Experimental results show that WebWatcher significantly outperforms proprietary
baseline, RAG workflow and open-source agents in four challenging VQA
benchmarks, which paves the way for solving complex multimodal
information-seeking tasks.