WebWatcher: Rompendo Novas Fronteiras no Agente de Pesquisa Profunda em Visão e Linguagem

Resumo

Agentes web como o Deep Research demonstraram habilidades cognitivas sobre-humanas, capazes de resolver problemas altamente desafiadores de busca de informações. No entanto, a maioria das pesquisas permanece principalmente centrada em texto, negligenciando informações visuais do mundo real. Isso torna o Deep Research multimodal altamente desafiador, pois tais agentes exigem habilidades de raciocínio muito mais fortes em percepção, lógica, conhecimento e o uso de ferramentas mais sofisticadas em comparação com agentes baseados em texto. Para abordar essa limitação, apresentamos o WebWatcher, um Agente multimodal para Deep Research equipado com capacidades aprimoradas de raciocínio visual-linguístico. Ele aproveita trajetórias multimodais sintéticas de alta qualidade para um treinamento eficiente de inicialização a frio, utiliza diversas ferramentas para raciocínio profundo e aprimora ainda mais a generalização por meio de aprendizado por reforço. Para avaliar melhor as capacidades de agentes multimodais, propomos o BrowseComp-VL, um benchmark no estilo BrowseComp que requer recuperação complexa de informações envolvendo tanto dados visuais quanto textuais. Resultados experimentais mostram que o WebWatcher supera significativamente a linha de base proprietária, o fluxo de trabalho RAG e agentes de código aberto em quatro benchmarks desafiadores de VQA, abrindo caminho para a resolução de tarefas complexas de busca de informações multimodais.

English

Web agents such as Deep Research have demonstrated superhuman cognitive abilities, capable of solving highly challenging information-seeking problems. However, most research remains primarily text-centric, overlooking visual information in the real world. This makes multimodal Deep Research highly challenging, as such agents require much stronger reasoning abilities in perception, logic, knowledge, and the use of more sophisticated tools compared to text-based agents. To address this limitation, we introduce WebWatcher, a multi-modal Agent for Deep Research equipped with enhanced visual-language reasoning capabilities. It leverages high-quality synthetic multimodal trajectories for efficient cold start training, utilizes various tools for deep reasoning, and further enhances generalization through reinforcement learning. To better evaluate the capabilities of multimodal agents, we propose BrowseComp-VL, a benchmark with BrowseComp-style that requires complex information retrieval involving both visual and textual information. Experimental results show that WebWatcher significantly outperforms proprietary baseline, RAG workflow and open-source agents in four challenging VQA benchmarks, which paves the way for solving complex multimodal information-seeking tasks.

WebWatcher: Rompendo Novas Fronteiras no Agente de Pesquisa Profunda em Visão e Linguagem

WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent

Resumo

Support