DeepMMSearch-R1: Stärkung multimodaler LLMs in der multimodalen Websuche
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
papers.authors: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
papers.abstract
Multimodale Large Language Models (MLLMs) in realen Anwendungen benötigen Zugang zu externen Wissensquellen und müssen auf dynamische und sich ständig verändernde reale Informationen reagieren, um informationssuchende und wissensintensive Benutzeranfragen zu bearbeiten. Bestehende Ansätze, wie Retrieval-Augmented-Generation (RAG)-Methoden, Suchagenten und mit Suchfunktionen ausgestattete MLLMs, leiden häufig unter starren Pipelines, übermäßigen Suchanfragen und schlecht konstruierten Suchanfragen, was zu Ineffizienzen und suboptimalen Ergebnissen führt. Um diese Einschränkungen zu überwinden, stellen wir DeepMMSearch-R1 vor, den ersten multimodalen LLM, der bedarfsgesteuerte, mehrstufige Websuchen durchführen und dynamisch Suchanfragen für Bild- und Textsuchwerkzeuge erstellen kann. Insbesondere kann DeepMMSearch-R1 Websuchen basierend auf relevanten Ausschnitten des Eingabebildes initiieren, wodurch die Bildsuche effektiver wird, und textbasierte Suchanfragen iterativ an die abgerufenen Informationen anpassen, wodurch Selbstreflexion und Selbstkorrektur ermöglicht werden. Unser Ansatz basiert auf einer zweistufigen Trainingspipeline: einer Kaltstart-Supervised-Finetuning-Phase, gefolgt von einer Online-Reinforcement-Learning-Optimierung. Für das Training führen wir DeepMMSearchVQA ein, einen neuartigen multimodalen VQA-Datensatz, der durch eine automatisierte Pipeline erstellt wurde, die mit realen Informationen aus Websuchwerkzeugen angereichert ist. Dieser Datensatz enthält diverse, mehrstufige Anfragen, die textuelle und visuelle Informationen integrieren und dem Modell beibringen, wann es suchen soll, wonach es suchen soll, welches Suchwerkzeug es verwenden soll und wie es über die abgerufenen Informationen schlussfolgern soll. Wir führen umfangreiche Experimente über eine Reihe von wissensintensiven Benchmarks durch, um die Überlegenheit unseres Ansatzes zu demonstrieren. Abschließend analysieren wir die Ergebnisse und liefern Erkenntnisse, die für die Weiterentwicklung der multimodalen Websuche wertvoll sind.
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.