DeepMMSearch-R1 : Renforcer les LLM multimodaux dans la recherche web multimodale
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
papers.authors: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande envergure (MLLMs) dans les applications réelles nécessitent un accès à des sources de connaissances externes et doivent rester réactifs face à l'information dynamique et en constante évolution du monde réel afin de répondre aux requêtes des utilisateurs axées sur la recherche d'informations et nécessitant des connaissances approfondies. Les approches existantes, telles que les méthodes de génération augmentée par recherche (RAG), les agents de recherche et les MLLMs équipés de fonctionnalités de recherche, souffrent souvent de pipelines rigides, d'appels de recherche excessifs et de requêtes de recherche mal construites, ce qui entraîne des inefficacités et des résultats sous-optimaux. Pour pallier ces limitations, nous présentons DeepMMSearch-R1, le premier MLLM multimodal capable d'effectuer des recherches web à la demande, multi-tours, et de formuler dynamiquement des requêtes pour les outils de recherche d'images et de texte. Plus précisément, DeepMMSearch-R1 peut initier des recherches web en se basant sur des extraits pertinents de l'image d'entrée, rendant ainsi la recherche d'images plus efficace, et peut adapter itérativement les requêtes de recherche textuelles en fonction des informations récupérées, permettant ainsi une auto-réflexion et une auto-correction. Notre approche repose sur un pipeline d'entraînement en deux étapes : une phase de fine-tuning supervisé à froid suivie d'une optimisation par apprentissage par renforcement en ligne. Pour l'entraînement, nous introduisons DeepMMSearchVQA, un nouveau jeu de données multimodal de questions-réponses (VQA) créé via un pipeline automatisé combiné à des informations réelles provenant d'outils de recherche web. Ce jeu de données contient des requêtes diversifiées et multi-étapes qui intègrent des informations textuelles et visuelles, enseignant au modèle quand rechercher, quoi rechercher, quel outil de recherche utiliser et comment raisonner sur les informations récupérées. Nous menons des expériences approfondies sur une série de benchmarks nécessitant des connaissances approfondies pour démontrer la supériorité de notre approche. Enfin, nous analysons les résultats et fournissons des insights précieux pour faire progresser la recherche web multimodale.
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.