MMSearch-R1 : Inciter les LMMs à effectuer des recherches
MMSearch-R1: Incentivizing LMMs to Search
June 25, 2025
Auteurs: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu
cs.AI
Résumé
Le déploiement robuste de grands modèles multimodaux (LMMs) dans des scénarios réels nécessite un accès à des sources de connaissances externes, compte tenu de la complexité et de la nature dynamique des informations du monde réel. Les approches existantes, telles que la génération augmentée par récupération (RAG) et les agents de recherche conçus par ingénierie de prompts, reposent sur des pipelines rigides, conduisant souvent à des comportements de recherche inefficaces ou excessifs. Nous présentons MMSearch-R1, le premier cadre d'apprentissage par renforcement de bout en bout qui permet aux LMMs d'effectuer des recherches à la demande et multi-tours dans des environnements Internet réels. Notre cadre intègre à la fois des outils de recherche d'images et de texte, permettant au modèle de raisonner sur le moment et la manière de les invoquer, guidé par une récompense basée sur les résultats avec une pénalité de recherche. Pour soutenir l'entraînement, nous collectons un ensemble de données de questions-réponses visuelles (VQA) multimodales via un pipeline semi-automatisé qui couvre divers besoins de connaissances visuelles et textuelles, et nous sélectionnons un sous-ensemble équilibré en termes de recherche, comprenant à la fois des échantillons nécessitant une recherche et d'autres n'en nécessitant pas, ce qui s'avère essentiel pour façonner un comportement de recherche efficace et à la demande. Des expériences approfondies sur des tâches VQA intensives en connaissances et axées sur la recherche d'informations montrent que notre modèle surpasse non seulement les bases de référence basées sur RAG de la même taille de modèle, mais correspond également aux performances d'un modèle basé sur RAG plus grand tout en réduisant les appels de recherche de plus de 30 %. Nous analysons en outre les principales découvertes empiriques pour offrir des perspectives exploitables afin de faire progresser la recherche dans le domaine de la recherche multimodale.
English
Robust deployment of large multimodal models (LMMs) in real-world scenarios
requires access to external knowledge sources, given the complexity and dynamic
nature of real-world information. Existing approaches such as
retrieval-augmented generation (RAG) and prompt engineered search agents rely
on rigid pipelines, often leading to inefficient or excessive search behaviors.
We present MMSearch-R1, the first end-to-end reinforcement learning framework
that enables LMMs to perform on-demand, multi-turn search in real-world
Internet environments. Our framework integrates both image and text search
tools, allowing the model to reason about when and how to invoke them guided by
an outcome-based reward with a search penalty. To support training, We collect
a multimodal search VQA dataset through a semi-automated pipeline that covers
diverse visual and textual knowledge needs and curate a search-balanced subset
with both search-required and search-free samples, which proves essential for
shaping efficient and on-demand search behavior. Extensive experiments on
knowledge-intensive and info-seeking VQA tasks show that our model not only
outperforms RAG-based baselines of the same model size, but also matches the
performance of a larger RAG-based model while reducing search calls by over
30%. We further analyze key empirical findings to offer actionable insights for
advancing research in multimodal search.