DeepMMSearch-R1: Capacitando LLMs Multimodais na Busca Multimodal na Web
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
Autores: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
Resumo
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em aplicações do mundo real exigem acesso a fontes de conhecimento externas e devem permanecer responsivos às informações dinâmicas e em constante mudança do mundo real para atender a consultas de usuários que buscam informações e são intensivas em conhecimento. As abordagens existentes, como métodos de geração aumentada por recuperação (RAG), agentes de busca e MLLMs equipados com busca, frequentemente sofrem com pipelines rígidos, chamadas de busca excessivas e consultas de busca mal construídas, resultando em ineficiências e resultados subótimos. Para abordar essas limitações, apresentamos o DeepMMSearch-R1, o primeiro MLLM multimodal capaz de realizar buscas na web sob demanda, com múltiplas interações, e de criar dinamicamente consultas para ferramentas de busca de imagens e texto. Especificamente, o DeepMMSearch-R1 pode iniciar buscas na web com base em recortes relevantes da imagem de entrada, tornando a busca por imagens mais eficaz, e pode adaptar iterativamente as consultas de busca de texto com base nas informações recuperadas, permitindo assim autorreflexão e autocorreção. Nossa abordagem depende de um pipeline de treinamento em duas etapas: uma fase inicial de ajuste fino supervisionado seguida por uma otimização de aprendizado por reforço online. Para o treinamento, introduzimos o DeepMMSearchVQA, um novo conjunto de dados multimodal de perguntas e respostas visuais (VQA) criado por meio de um pipeline automatizado intercalado com informações do mundo real de ferramentas de busca na web. Esse conjunto de dados contém consultas diversas e de múltiplos saltos que integram informações textuais e visuais, ensinando o modelo quando buscar, o que buscar, qual ferramenta de busca usar e como raciocinar sobre as informações recuperadas. Realizamos experimentos extensos em uma variedade de benchmarks intensivos em conhecimento para demonstrar a superioridade de nossa abordagem. Por fim, analisamos os resultados e fornecemos insights valiosos para o avanço da busca multimodal na web.
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.