ChatPaper.aiChatPaper

MMSearch-R1: LMMの検索を促進する

MMSearch-R1: Incentivizing LMMs to Search

June 25, 2025
著者: Jinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu
cs.AI

要旨

現実世界のシナリオにおける大規模マルチモーダルモデル(LMMs)の堅牢な展開には、現実世界の情報の複雑さと動的な性質を考慮して、外部の知識源へのアクセスが必要である。既存のアプローチである検索拡張生成(RAG)やプロンプトエンジニアリングされた検索エージェントは、硬直的なパイプラインに依存しており、しばしば非効率的または過剰な検索行動を引き起こす。本論文では、MMSearch-R1を提案する。これは、LMMsが現実世界のインターネット環境においてオンデマンドでマルチターン検索を実行することを可能にする初めてのエンドツーエンドの強化学習フレームワークである。本フレームワークは、画像とテキストの検索ツールを統合し、モデルが結果ベースの報酬と検索ペナルティに基づいて、いつどのようにそれらを呼び出すかを推論することを可能にする。トレーニングを支援するために、多様な視覚的およびテキスト的な知識ニーズをカバーする半自動化されたパイプラインを通じてマルチモーダル検索VQAデータセットを収集し、検索が必要なサンプルと検索不要なサンプルの両方を含む検索バランスの取れたサブセットをキュレーションした。これは、効率的でオンデマンドの検索行動を形成するために不可欠であることが証明された。知識集約型および情報探索型のVQAタスクにおける広範な実験により、本モデルが同じモデルサイズのRAGベースのベースラインを上回るだけでなく、より大きなRAGベースのモデルの性能に匹敵しつつ、検索呼び出しを30%以上削減することが示された。さらに、マルチモーダル検索の研究を進めるための実践的な洞察を提供するために、重要な経験的知見を分析する。
English
Robust deployment of large multimodal models (LMMs) in real-world scenarios requires access to external knowledge sources, given the complexity and dynamic nature of real-world information. Existing approaches such as retrieval-augmented generation (RAG) and prompt engineered search agents rely on rigid pipelines, often leading to inefficient or excessive search behaviors. We present MMSearch-R1, the first end-to-end reinforcement learning framework that enables LMMs to perform on-demand, multi-turn search in real-world Internet environments. Our framework integrates both image and text search tools, allowing the model to reason about when and how to invoke them guided by an outcome-based reward with a search penalty. To support training, We collect a multimodal search VQA dataset through a semi-automated pipeline that covers diverse visual and textual knowledge needs and curate a search-balanced subset with both search-required and search-free samples, which proves essential for shaping efficient and on-demand search behavior. Extensive experiments on knowledge-intensive and info-seeking VQA tasks show that our model not only outperforms RAG-based baselines of the same model size, but also matches the performance of a larger RAG-based model while reducing search calls by over 30%. We further analyze key empirical findings to offer actionable insights for advancing research in multimodal search.
PDF181June 26, 2025