MMSearch-R1: Incentivando a los LMMs para la búsqueda
MMSearch-R1: Incentivizing LMMs to Search
June 25, 2025
Autores: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu
cs.AI
Resumen
El despliegue robusto de modelos multimodales grandes (LMMs, por sus siglas en inglés) en escenarios del mundo real requiere acceso a fuentes de conocimiento externas, dada la complejidad y naturaleza dinámica de la información en entornos reales. Los enfoques existentes, como la generación aumentada por recuperación (RAG, por sus siglas en inglés) y los agentes de búsqueda con ingeniería de prompts, dependen de pipelines rígidos, lo que a menudo conduce a comportamientos de búsqueda ineficientes o excesivos. Presentamos MMSearch-R1, el primer marco de aprendizaje por refuerzo de extremo a extremo que permite a los LMMs realizar búsquedas bajo demanda y de múltiples turnos en entornos de Internet del mundo real. Nuestro marco integra herramientas de búsqueda tanto de imágenes como de texto, permitiendo que el modelo razone cuándo y cómo invocarlas, guiado por una recompensa basada en resultados con una penalización por búsqueda. Para apoyar el entrenamiento, recopilamos un conjunto de datos de preguntas y respuestas visuales (VQA, por sus siglas en inglés) de búsqueda multimodal a través de un pipeline semi-automatizado que cubre diversas necesidades de conocimiento visual y textual, y seleccionamos un subconjunto equilibrado con muestras que requieren búsqueda y muestras que no la requieren, lo que resulta esencial para moldear un comportamiento de búsqueda eficiente y bajo demanda. Experimentos exhaustivos en tareas VQA intensivas en conocimiento y de búsqueda de información muestran que nuestro modelo no solo supera a los baselines basados en RAG del mismo tamaño, sino que también iguala el rendimiento de un modelo basado en RAG más grande mientras reduce las llamadas de búsqueda en más del 30%. Además, analizamos hallazgos empíricos clave para ofrecer insights prácticos que impulsen la investigación en búsqueda multimodal.
English
Robust deployment of large multimodal models (LMMs) in real-world scenarios
requires access to external knowledge sources, given the complexity and dynamic
nature of real-world information. Existing approaches such as
retrieval-augmented generation (RAG) and prompt engineered search agents rely
on rigid pipelines, often leading to inefficient or excessive search behaviors.
We present MMSearch-R1, the first end-to-end reinforcement learning framework
that enables LMMs to perform on-demand, multi-turn search in real-world
Internet environments. Our framework integrates both image and text search
tools, allowing the model to reason about when and how to invoke them guided by
an outcome-based reward with a search penalty. To support training, We collect
a multimodal search VQA dataset through a semi-automated pipeline that covers
diverse visual and textual knowledge needs and curate a search-balanced subset
with both search-required and search-free samples, which proves essential for
shaping efficient and on-demand search behavior. Extensive experiments on
knowledge-intensive and info-seeking VQA tasks show that our model not only
outperforms RAG-based baselines of the same model size, but also matches the
performance of a larger RAG-based model while reducing search calls by over
30%. We further analyze key empirical findings to offer actionable insights for
advancing research in multimodal search.