DeepMMSearch-R1: Multimodale LLM's versterken in multimodale webzoekopdrachten
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
Auteurs: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) in real-world toepassingen hebben toegang nodig tot externe kennisbronnen en moeten reageren op dynamische en voortdurend veranderende real-world informatie om informatiezoekende en kennisintensieve gebruikersvragen te beantwoorden. Bestaande benaderingen, zoals retrieval augmented generation (RAG) methoden, zoekagentschappen en MLLMs uitgerust met zoekfunctionaliteit, kampen vaak met rigide pijplijnen, overmatige zoekopdrachten en slecht geconstrueerde zoekquery's, wat resulteert in inefficiënties en suboptimale resultaten. Om deze beperkingen aan te pakken, presenteren we DeepMMSearch-R1, de eerste multimodale LLM die in staat is om op aanvraag, multi-turn webzoekopdrachten uit te voeren en dynamisch query's te maken voor zowel beeld- als tekstzoektools. Specifiek kan DeepMMSearch-R1 webzoekopdrachten initiëren op basis van relevante uitsneden van de invoerafbeelding, waardoor de beeldzoekopdracht effectiever wordt, en kan het iteratief tekstzoekquery's aanpassen op basis van opgehaalde informatie, waardoor zelfreflectie en zelfcorrectie mogelijk worden. Onze aanpak is gebaseerd op een tweefasig trainingspijplijn: een koude start supervised finetuning fase gevolgd door een online reinforcement learning optimalisatie. Voor de training introduceren we DeepMMSearchVQA, een nieuwe multimodale VQA-dataset die is gecreëerd via een geautomatiseerde pijplijn gemengd met real-world informatie van webzoektools. Deze dataset bevat diverse, multi-hop query's die tekstuele en visuele informatie integreren, waardoor het model leert wanneer het moet zoeken, waarnaar het moet zoeken, welke zoektool het moet gebruiken en hoe het moet redeneren over de opgehaalde informatie. We voeren uitgebreide experimenten uit over een reeks kennisintensieve benchmarks om de superioriteit van onze aanpak aan te tonen. Tot slot analyseren we de resultaten en bieden we inzichten die waardevol zijn voor het bevorderen van multimodale webzoekopdrachten.
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.