MMSearch-R1: LMM의 검색 기능 강화를 위한 인센티브 제공
MMSearch-R1: Incentivizing LMMs to Search
June 25, 2025
저자: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu
cs.AI
초록
실제 환경에서 대규모 멀티모달 모델(LMM)의 견고한 배치를 위해서는 현실 세계 정보의 복잡성과 동적 특성을 고려하여 외부 지식 소스에 대한 접근이 필수적입니다. 기존의 접근 방식인 검색 강화 생성(RAG) 및 프롬프트 엔지니어링 기반 검색 에이전트는 경직된 파이프라인에 의존하여 종종 비효율적이거나 과도한 검색 행동을 초래합니다. 본 논문에서는 LMM이 실제 인터넷 환경에서 요청에 따라 다중 턴 검색을 수행할 수 있도록 하는 최초의 종단 간 강화 학습 프레임워크인 MMSearch-R1을 소개합니다. 우리의 프레임워크는 이미지와 텍스트 검색 도구를 통합하여 모델이 결과 기반 보상과 검색 패널티의 지도 하에 언제 그리고 어떻게 이를 호출할지 추론할 수 있도록 합니다. 학습을 지원하기 위해, 우리는 다양한 시각적 및 텍스트 기반 지식 요구를 포괄하는 반자동화 파이프라인을 통해 멀티모달 검색 VQA 데이터셋을 수집하고, 검색이 필요한 샘플과 검색이 필요 없는 샘플을 모두 포함한 검색 균형 잡힌 하위 집합을 선별하였습니다. 이는 효율적이고 요청에 따른 검색 행동을 형성하는 데 필수적인 것으로 입증되었습니다. 지식 집약적 및 정보 탐색 VQA 작업에 대한 광범위한 실험을 통해 우리의 모델이 동일한 모델 크기의 RAG 기반 베이스라인을 능가할 뿐만 아니라, 더 큰 RAG 기반 모델의 성능을 유지하면서 검색 호출을 30% 이상 줄일 수 있음을 보여줍니다. 또한, 우리는 멀티모달 검색 연구를 발전시키기 위한 실행 가능한 통찰력을 제공하기 위해 주요 실험 결과를 심층적으로 분석합니다.
English
Robust deployment of large multimodal models (LMMs) in real-world scenarios
requires access to external knowledge sources, given the complexity and dynamic
nature of real-world information. Existing approaches such as
retrieval-augmented generation (RAG) and prompt engineered search agents rely
on rigid pipelines, often leading to inefficient or excessive search behaviors.
We present MMSearch-R1, the first end-to-end reinforcement learning framework
that enables LMMs to perform on-demand, multi-turn search in real-world
Internet environments. Our framework integrates both image and text search
tools, allowing the model to reason about when and how to invoke them guided by
an outcome-based reward with a search penalty. To support training, We collect
a multimodal search VQA dataset through a semi-automated pipeline that covers
diverse visual and textual knowledge needs and curate a search-balanced subset
with both search-required and search-free samples, which proves essential for
shaping efficient and on-demand search behavior. Extensive experiments on
knowledge-intensive and info-seeking VQA tasks show that our model not only
outperforms RAG-based baselines of the same model size, but also matches the
performance of a larger RAG-based model while reducing search calls by over
30%. We further analyze key empirical findings to offer actionable insights for
advancing research in multimodal search.