ChatPaper.aiChatPaper

WebWatcher: Rompiendo Nuevas Fronteras en el Agente de Investigación Profunda de Visión y Lenguaje

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

August 7, 2025
Autores: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

Resumen

Los agentes web como Deep Research han demostrado capacidades cognitivas sobrehumanas, capaces de resolver problemas altamente desafiantes de búsqueda de información. Sin embargo, la mayoría de las investigaciones siguen siendo principalmente centradas en texto, pasando por alto la información visual del mundo real. Esto hace que el Deep Research multimodal sea extremadamente desafiante, ya que dichos agentes requieren habilidades de razonamiento mucho más fuertes en percepción, lógica, conocimiento y el uso de herramientas más sofisticadas en comparación con los agentes basados en texto. Para abordar esta limitación, presentamos WebWatcher, un agente multimodal para Deep Research equipado con capacidades mejoradas de razonamiento visual-lingüístico. Este aprovecha trayectorias multimodales sintéticas de alta calidad para un entrenamiento eficiente de arranque en frío, utiliza diversas herramientas para un razonamiento profundo y mejora aún más la generalización mediante aprendizaje por refuerzo. Para evaluar mejor las capacidades de los agentes multimodales, proponemos BrowseComp-VL, un punto de referencia con estilo BrowseComp que requiere una recuperación compleja de información que involucra tanto datos visuales como textuales. Los resultados experimentales muestran que WebWatcher supera significativamente a la línea base propietaria, al flujo de trabajo RAG y a los agentes de código abierto en cuatro desafiantes puntos de referencia de VQA, lo que allana el camino para resolver tareas complejas de búsqueda de información multimodal.
English
Web agents such as Deep Research have demonstrated superhuman cognitive abilities, capable of solving highly challenging information-seeking problems. However, most research remains primarily text-centric, overlooking visual information in the real world. This makes multimodal Deep Research highly challenging, as such agents require much stronger reasoning abilities in perception, logic, knowledge, and the use of more sophisticated tools compared to text-based agents. To address this limitation, we introduce WebWatcher, a multi-modal Agent for Deep Research equipped with enhanced visual-language reasoning capabilities. It leverages high-quality synthetic multimodal trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization through reinforcement learning. To better evaluate the capabilities of multimodal agents, we propose BrowseComp-VL, a benchmark with BrowseComp-style that requires complex information retrieval involving both visual and textual information. Experimental results show that WebWatcher significantly outperforms proprietary baseline, RAG workflow and open-source agents in four challenging VQA benchmarks, which paves the way for solving complex multimodal information-seeking tasks.
PDF1054August 13, 2025