MMSearch-R1 : Inciter les LMMs à effectuer des recherches

papers.abstract

Le déploiement robuste de grands modèles multimodaux (LMMs) dans des scénarios réels nécessite un accès à des sources de connaissances externes, compte tenu de la complexité et de la nature dynamique des informations du monde réel. Les approches existantes, telles que la génération augmentée par récupération (RAG) et les agents de recherche conçus par ingénierie de prompts, reposent sur des pipelines rigides, conduisant souvent à des comportements de recherche inefficaces ou excessifs. Nous présentons MMSearch-R1, le premier cadre d'apprentissage par renforcement de bout en bout qui permet aux LMMs d'effectuer des recherches à la demande et multi-tours dans des environnements Internet réels. Notre cadre intègre à la fois des outils de recherche d'images et de texte, permettant au modèle de raisonner sur le moment et la manière de les invoquer, guidé par une récompense basée sur les résultats avec une pénalité de recherche. Pour soutenir l'entraînement, nous collectons un ensemble de données de questions-réponses visuelles (VQA) multimodales via un pipeline semi-automatisé qui couvre divers besoins de connaissances visuelles et textuelles, et nous sélectionnons un sous-ensemble équilibré en termes de recherche, comprenant à la fois des échantillons nécessitant une recherche et d'autres n'en nécessitant pas, ce qui s'avère essentiel pour façonner un comportement de recherche efficace et à la demande. Des expériences approfondies sur des tâches VQA intensives en connaissances et axées sur la recherche d'informations montrent que notre modèle surpasse non seulement les bases de référence basées sur RAG de la même taille de modèle, mais correspond également aux performances d'un modèle basé sur RAG plus grand tout en réduisant les appels de recherche de plus de 30 %. Nous analysons en outre les principales découvertes empiriques pour offrir des perspectives exploitables afin de faire progresser la recherche dans le domaine de la recherche multimodale.

English

Robust deployment of large multimodal models (LMMs) in real-world scenarios requires access to external knowledge sources, given the complexity and dynamic nature of real-world information. Existing approaches such as retrieval-augmented generation (RAG) and prompt engineered search agents rely on rigid pipelines, often leading to inefficient or excessive search behaviors. We present MMSearch-R1, the first end-to-end reinforcement learning framework that enables LMMs to perform on-demand, multi-turn search in real-world Internet environments. Our framework integrates both image and text search tools, allowing the model to reason about when and how to invoke them guided by an outcome-based reward with a search penalty. To support training, We collect a multimodal search VQA dataset through a semi-automated pipeline that covers diverse visual and textual knowledge needs and curate a search-balanced subset with both search-required and search-free samples, which proves essential for shaping efficient and on-demand search behavior. Extensive experiments on knowledge-intensive and info-seeking VQA tasks show that our model not only outperforms RAG-based baselines of the same model size, but also matches the performance of a larger RAG-based model while reducing search calls by over 30%. We further analyze key empirical findings to offer actionable insights for advancing research in multimodal search.

MMSearch-R1 : Inciter les LMMs à effectuer des recherches

MMSearch-R1: Incentivizing LMMs to Search

papers.abstract

Support