DeepMMSearch-R1: Potenziamento dei Modelli Linguistici Multimodali nella Ricerca Web Multimodale
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
Autori: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) nelle applicazioni del mondo reale richiedono l'accesso a fonti di conoscenza esterne e devono rimanere reattivi alle informazioni dinamiche e in continua evoluzione del mondo reale per affrontare query degli utenti orientate alla ricerca di informazioni e ad alta intensità di conoscenza. Gli approcci esistenti, come i metodi di generazione aumentata con recupero (RAG), gli agenti di ricerca e gli MLLM dotati di funzionalità di ricerca, spesso soffrono di pipeline rigide, chiamate di ricerca eccessive e query di ricerca mal costruite, che si traducono in inefficienze e risultati subottimali. Per affrontare queste limitazioni, presentiamo DeepMMSearch-R1, il primo MLLM multimodale in grado di eseguire ricerche web su richiesta, multi-turn e di creare dinamicamente query per strumenti di ricerca sia di immagini che di testo. Nello specifico, DeepMMSearch-R1 può avviare ricerche web basate su ritagli rilevanti dell'immagine di input, rendendo la ricerca di immagini più efficace, e può adattare iterativamente le query di ricerca testuale in base alle informazioni recuperate, consentendo così auto-riflessione e auto-correzione. Il nostro approccio si basa su una pipeline di addestramento in due fasi: una fase iniziale di fine-tuning supervisionato a freddo seguita da un'ottimizzazione con apprendimento per rinforzo online. Per l'addestramento, introduciamo DeepMMSearchVQA, un nuovo dataset multimodale di VQA creato attraverso una pipeline automatizzata mescolata con informazioni del mondo reale provenienti da strumenti di ricerca web. Questo dataset contiene query diversificate e multi-hop che integrano informazioni testuali e visive, insegnando al modello quando cercare, cosa cercare, quale strumento di ricerca utilizzare e come ragionare sulle informazioni recuperate. Condividiamo esperimenti estesi su una gamma di benchmark ad alta intensità di conoscenza per dimostrare la superiorità del nostro approccio. Infine, analizziamo i risultati e forniamo approfondimenti preziosi per avanzare nella ricerca web multimodale.
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.