DeepMMSearch-R1: Potenciando los LLM multimodales en la búsqueda web multimodal
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
Autores: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) en aplicaciones del mundo real requieren acceso a fuentes de conocimiento externas y deben mantenerse receptivos a la información dinámica y en constante cambio del mundo real para abordar consultas de usuarios que buscan información y son intensivas en conocimiento. Los enfoques existentes, como los métodos de generación aumentada por recuperación (RAG, por sus siglas en inglés), agentes de búsqueda y MLLMs equipados con capacidades de búsqueda, a menudo sufren de pipelines rígidos, llamadas de búsqueda excesivas y consultas de búsqueda mal construidas, lo que resulta en ineficiencias y resultados subóptimos. Para abordar estas limitaciones, presentamos DeepMMSearch-R1, el primer MLLM multimodal capaz de realizar búsquedas web bajo demanda, de múltiples turnos, y de elaborar dinámicamente consultas tanto para herramientas de búsqueda de imágenes como de texto. Específicamente, DeepMMSearch-R1 puede iniciar búsquedas web basadas en recortes relevantes de la imagen de entrada, lo que hace que la búsqueda de imágenes sea más efectiva, y puede adaptar iterativamente las consultas de búsqueda de texto basándose en la información recuperada, permitiendo así la autorreflexión y la autocorrección. Nuestro enfoque se basa en un pipeline de entrenamiento de dos etapas: una fase de ajuste fino supervisado de arranque en frío seguida de una optimización de aprendizaje por refuerzo en línea. Para el entrenamiento, introducimos DeepMMSearchVQA, un nuevo conjunto de datos multimodal de preguntas y respuestas visuales (VQA, por sus siglas en inglés) creado a través de un pipeline automatizado mezclado con información del mundo real obtenida de herramientas de búsqueda web. Este conjunto de datos contiene consultas diversas y de múltiples saltos que integran información textual y visual, enseñando al modelo cuándo buscar, qué buscar, qué herramienta de búsqueda usar y cómo razonar sobre la información recuperada. Realizamos experimentos extensos en una variedad de benchmarks intensivos en conocimiento para demostrar la superioridad de nuestro enfoque. Finalmente, analizamos los resultados y proporcionamos insights valiosos para avanzar en la búsqueda web multimodal.
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.