MMSearch-R1: Стимулирование LMM к поиску
MMSearch-R1: Incentivizing LMMs to Search
June 25, 2025
Авторы: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu
cs.AI
Аннотация
Надежное развертывание крупных мультимодальных моделей (LMM) в реальных сценариях требует доступа к внешним источникам знаний, учитывая сложность и динамичный характер информации в реальном мире. Существующие подходы, такие как генерация с использованием извлечения данных (RAG) и поисковые агенты с инженерными подсказками, опираются на жесткие конвейеры, что часто приводит к неэффективному или избыточному поисковому поведению. Мы представляем MMSearch-R1 — первую сквозную структуру обучения с подкреплением, которая позволяет LMM выполнять поиск по запросу в многоходовых сценариях в реальных интернет-средах. Наша структура интегрирует инструменты поиска как по изображениям, так и по тексту, позволяя модели решать, когда и как их использовать, руководствуясь вознаграждением на основе результата с учетом штрафа за поиск. Для поддержки обучения мы собираем мультимодальный набор данных для вопросно-ответных задач (VQA) через полуавтоматизированный конвейер, охватывающий разнообразные визуальные и текстовые потребности в знаниях, и создаем сбалансированный поднабор с образцами, требующими поиска и не требующими его, что оказывается важным для формирования эффективного и запросного поискового поведения. Масштабные эксперименты на задачах VQA, требующих знаний и поиска информации, показывают, что наша модель не только превосходит базовые модели на основе RAG того же размера, но и соответствует производительности более крупной модели на основе RAG, сокращая количество поисковых запросов более чем на 30%. Мы также анализируем ключевые эмпирические результаты, чтобы предложить практические рекомендации для продвижения исследований в области мультимодального поиска.
English
Robust deployment of large multimodal models (LMMs) in real-world scenarios
requires access to external knowledge sources, given the complexity and dynamic
nature of real-world information. Existing approaches such as
retrieval-augmented generation (RAG) and prompt engineered search agents rely
on rigid pipelines, often leading to inefficient or excessive search behaviors.
We present MMSearch-R1, the first end-to-end reinforcement learning framework
that enables LMMs to perform on-demand, multi-turn search in real-world
Internet environments. Our framework integrates both image and text search
tools, allowing the model to reason about when and how to invoke them guided by
an outcome-based reward with a search penalty. To support training, We collect
a multimodal search VQA dataset through a semi-automated pipeline that covers
diverse visual and textual knowledge needs and curate a search-balanced subset
with both search-required and search-free samples, which proves essential for
shaping efficient and on-demand search behavior. Extensive experiments on
knowledge-intensive and info-seeking VQA tasks show that our model not only
outperforms RAG-based baselines of the same model size, but also matches the
performance of a larger RAG-based model while reducing search calls by over
30%. We further analyze key empirical findings to offer actionable insights for
advancing research in multimodal search.