WebWatcher: Rompendo Novas Fronteiras no Agente de Pesquisa Profunda em Visão e Linguagem
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
August 7, 2025
Autores: Xinyu Geng, Peng Xia, Zhen Zhang, Xinyu Wang, Qiuchen Wang, Ruixue Ding, Chenxi Wang, Jialong Wu, Yida Zhao, Kuan Li, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumo
Agentes web como o Deep Research demonstraram habilidades cognitivas sobre-humanas, capazes de resolver problemas altamente desafiadores de busca de informações. No entanto, a maioria das pesquisas permanece principalmente centrada em texto, negligenciando informações visuais do mundo real. Isso torna o Deep Research multimodal altamente desafiador, pois tais agentes exigem habilidades de raciocínio muito mais fortes em percepção, lógica, conhecimento e o uso de ferramentas mais sofisticadas em comparação com agentes baseados em texto. Para abordar essa limitação, apresentamos o WebWatcher, um Agente multimodal para Deep Research equipado com capacidades aprimoradas de raciocínio visual-linguístico. Ele aproveita trajetórias multimodais sintéticas de alta qualidade para um treinamento eficiente de inicialização a frio, utiliza diversas ferramentas para raciocínio profundo e aprimora ainda mais a generalização por meio de aprendizado por reforço. Para avaliar melhor as capacidades de agentes multimodais, propomos o BrowseComp-VL, um benchmark no estilo BrowseComp que requer recuperação complexa de informações envolvendo tanto dados visuais quanto textuais. Resultados experimentais mostram que o WebWatcher supera significativamente a linha de base proprietária, o fluxo de trabalho RAG e agentes de código aberto em quatro benchmarks desafiadores de VQA, abrindo caminho para a resolução de tarefas complexas de busca de informações multimodais.
English
Web agents such as Deep Research have demonstrated superhuman cognitive
abilities, capable of solving highly challenging information-seeking problems.
However, most research remains primarily text-centric, overlooking visual
information in the real world. This makes multimodal Deep Research highly
challenging, as such agents require much stronger reasoning abilities in
perception, logic, knowledge, and the use of more sophisticated tools compared
to text-based agents. To address this limitation, we introduce WebWatcher, a
multi-modal Agent for Deep Research equipped with enhanced visual-language
reasoning capabilities. It leverages high-quality synthetic multimodal
trajectories for efficient cold start training, utilizes various tools for deep
reasoning, and further enhances generalization through reinforcement learning.
To better evaluate the capabilities of multimodal agents, we propose
BrowseComp-VL, a benchmark with BrowseComp-style that requires complex
information retrieval involving both visual and textual information.
Experimental results show that WebWatcher significantly outperforms proprietary
baseline, RAG workflow and open-source agents in four challenging VQA
benchmarks, which paves the way for solving complex multimodal
information-seeking tasks.