DeepMMSearch-R1: マルチモーダルWeb検索におけるマルチモーダルLLMの強化
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
October 14, 2025
著者: Kartik Narayan, Yang Xu, Tian Cao, Kavya Nerella, Vishal M. Patel, Navid Shiee, Peter Grasch, Chao Jia, Yinfei Yang, Zhe Gan
cs.AI
要旨
現実世界のアプリケーションにおけるマルチモーダル大規模言語モデル(MLLMs)は、外部の知識源へのアクセスを必要とし、情報探索や知識集約型のユーザークエリに対応するために、動的かつ絶えず変化する現実世界の情報に対応し続けなければなりません。既存のアプローチ、例えば検索拡張生成(RAG)手法、検索エージェント、検索機能を備えたMLLMsは、しばしば硬直的なパイプライン、過剰な検索呼び出し、不適切に構築された検索クエリに悩まされ、非効率性と最適でない結果を招いています。これらの制限に対処するため、我々はDeepMMSearch-R1を提案します。これは、オンデマンドでマルチターンのウェブ検索を実行し、画像およびテキスト検索ツールのためのクエリを動的に作成できる初のマルチモーダルLLMです。具体的には、DeepMMSearch-R1は入力画像の関連部分に基づいてウェブ検索を開始し、画像検索をより効果的にし、検索された情報に基づいてテキスト検索クエリを反復的に適応させ、自己反映と自己修正を可能にします。我々のアプローチは、二段階のトレーニングパイプラインに依存しています:コールドスタートの教師ありファインチューニングフェーズと、オンライン強化学習最適化です。トレーニングのために、我々はDeepMMSearchVQAを導入します。これは、ウェブ検索ツールからの現実世界の情報と自動化されたパイプラインを組み合わせて作成された新しいマルチモーダルVQAデータセットです。このデータセットには、テキストと視覚情報を統合した多様なマルチホップクエリが含まれており、モデルにいつ検索するか、何を検索するか、どの検索ツールを使用するか、検索された情報をどのように推論するかを教えます。我々は、知識集約型のベンチマークの範囲で広範な実験を行い、我々のアプローチの優位性を実証します。最後に、結果を分析し、マルチモーダルウェブ検索を進めるための貴重な洞察を提供します。
English
Multimodal Large Language Models (MLLMs) in real-world applications require
access to external knowledge sources and must remain responsive to the dynamic
and ever-changing real-world information in order to address
information-seeking and knowledge-intensive user queries. Existing approaches,
such as retrieval augmented generation (RAG) methods, search agents, and search
equipped MLLMs, often suffer from rigid pipelines, excessive search calls, and
poorly constructed search queries, which result in inefficiencies and
suboptimal outcomes. To address these limitations, we present DeepMMSearch-R1,
the first multimodal LLM capable of performing on-demand, multi-turn web
searches and dynamically crafting queries for both image and text search tools.
Specifically, DeepMMSearch-R1 can initiate web searches based on relevant crops
of the input image making the image search more effective, and can iteratively
adapt text search queries based on retrieved information, thereby enabling
self-reflection and self-correction. Our approach relies on a two-stage
training pipeline: a cold start supervised finetuning phase followed by an
online reinforcement learning optimization. For training, we introduce
DeepMMSearchVQA, a novel multimodal VQA dataset created through an automated
pipeline intermixed with real-world information from web search tools. This
dataset contains diverse, multi-hop queries that integrate textual and visual
information, teaching the model when to search, what to search for, which
search tool to use and how to reason over the retrieved information. We conduct
extensive experiments across a range of knowledge-intensive benchmarks to
demonstrate the superiority of our approach. Finally, we analyze the results
and provide insights that are valuable for advancing multimodal web-search.