MMSearch-R1: Incentivando LMMs a Buscar
MMSearch-R1: Incentivizing LMMs to Search
June 25, 2025
Autores: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu
cs.AI
Resumo
A implantação robusta de grandes modelos multimodais (LMMs) em cenários do mundo real requer acesso a fontes de conhecimento externas, dada a complexidade e a natureza dinâmica das informações do mundo real. Abordagens existentes, como geração aumentada por recuperação (RAG) e agentes de busca com engenharia de prompt, dependem de pipelines rígidos, frequentemente levando a comportamentos de busca ineficientes ou excessivos. Apresentamos o MMSearch-R1, o primeiro framework de aprendizado por reforço de ponta a ponta que permite que LMMs realizem buscas sob demanda e de múltiplas interações em ambientes reais da Internet. Nosso framework integra ferramentas de busca de imagem e texto, permitindo que o modelo raciocine sobre quando e como invocá-las, guiado por uma recompensa baseada em resultados com uma penalidade de busca. Para apoiar o treinamento, coletamos um conjunto de dados de perguntas e respostas visuais (VQA) multimodais por meio de um pipeline semi-automatizado que abrange diversas necessidades de conhecimento visual e textual, e selecionamos um subconjunto balanceado com amostras que requerem busca e amostras que não requerem, o que se mostrou essencial para moldar um comportamento de busca eficiente e sob demanda. Experimentos extensivos em tarefas de VQA intensivas em conhecimento e de busca de informação mostram que nosso modelo não apenas supera as linhas de base baseadas em RAG do mesmo tamanho, mas também iguala o desempenho de um modelo baseado em RAG maior, enquanto reduz as chamadas de busca em mais de 30%. Analisamos ainda descobertas empíricas-chave para oferecer insights acionáveis que avancem a pesquisa em busca multimodal.
English
Robust deployment of large multimodal models (LMMs) in real-world scenarios
requires access to external knowledge sources, given the complexity and dynamic
nature of real-world information. Existing approaches such as
retrieval-augmented generation (RAG) and prompt engineered search agents rely
on rigid pipelines, often leading to inefficient or excessive search behaviors.
We present MMSearch-R1, the first end-to-end reinforcement learning framework
that enables LMMs to perform on-demand, multi-turn search in real-world
Internet environments. Our framework integrates both image and text search
tools, allowing the model to reason about when and how to invoke them guided by
an outcome-based reward with a search penalty. To support training, We collect
a multimodal search VQA dataset through a semi-automated pipeline that covers
diverse visual and textual knowledge needs and curate a search-balanced subset
with both search-required and search-free samples, which proves essential for
shaping efficient and on-demand search behavior. Extensive experiments on
knowledge-intensive and info-seeking VQA tasks show that our model not only
outperforms RAG-based baselines of the same model size, but also matches the
performance of a larger RAG-based model while reducing search calls by over
30%. We further analyze key empirical findings to offer actionable insights for
advancing research in multimodal search.