MMSearch-R1: Incentivando a los LMMs para la búsqueda

Resumen

El despliegue robusto de modelos multimodales grandes (LMMs, por sus siglas en inglés) en escenarios del mundo real requiere acceso a fuentes de conocimiento externas, dada la complejidad y naturaleza dinámica de la información en entornos reales. Los enfoques existentes, como la generación aumentada por recuperación (RAG, por sus siglas en inglés) y los agentes de búsqueda con ingeniería de prompts, dependen de pipelines rígidos, lo que a menudo conduce a comportamientos de búsqueda ineficientes o excesivos. Presentamos MMSearch-R1, el primer marco de aprendizaje por refuerzo de extremo a extremo que permite a los LMMs realizar búsquedas bajo demanda y de múltiples turnos en entornos de Internet del mundo real. Nuestro marco integra herramientas de búsqueda tanto de imágenes como de texto, permitiendo que el modelo razone cuándo y cómo invocarlas, guiado por una recompensa basada en resultados con una penalización por búsqueda. Para apoyar el entrenamiento, recopilamos un conjunto de datos de preguntas y respuestas visuales (VQA, por sus siglas en inglés) de búsqueda multimodal a través de un pipeline semi-automatizado que cubre diversas necesidades de conocimiento visual y textual, y seleccionamos un subconjunto equilibrado con muestras que requieren búsqueda y muestras que no la requieren, lo que resulta esencial para moldear un comportamiento de búsqueda eficiente y bajo demanda. Experimentos exhaustivos en tareas VQA intensivas en conocimiento y de búsqueda de información muestran que nuestro modelo no solo supera a los baselines basados en RAG del mismo tamaño, sino que también iguala el rendimiento de un modelo basado en RAG más grande mientras reduce las llamadas de búsqueda en más del 30%. Además, analizamos hallazgos empíricos clave para ofrecer insights prácticos que impulsen la investigación en búsqueda multimodal.

English

Robust deployment of large multimodal models (LMMs) in real-world scenarios requires access to external knowledge sources, given the complexity and dynamic nature of real-world information. Existing approaches such as retrieval-augmented generation (RAG) and prompt engineered search agents rely on rigid pipelines, often leading to inefficient or excessive search behaviors. We present MMSearch-R1, the first end-to-end reinforcement learning framework that enables LMMs to perform on-demand, multi-turn search in real-world Internet environments. Our framework integrates both image and text search tools, allowing the model to reason about when and how to invoke them guided by an outcome-based reward with a search penalty. To support training, We collect a multimodal search VQA dataset through a semi-automated pipeline that covers diverse visual and textual knowledge needs and curate a search-balanced subset with both search-required and search-free samples, which proves essential for shaping efficient and on-demand search behavior. Extensive experiments on knowledge-intensive and info-seeking VQA tasks show that our model not only outperforms RAG-based baselines of the same model size, but also matches the performance of a larger RAG-based model while reducing search calls by over 30%. We further analyze key empirical findings to offer actionable insights for advancing research in multimodal search.

MMSearch-R1: Incentivando a los LMMs para la búsqueda

MMSearch-R1: Incentivizing LMMs to Search

Resumen

Support