M3DR: ユニバーサル多言語マルチモーダル文書検索へのアプローチ
M3DR: Towards Universal Multilingual Multimodal Document Retrieval
December 3, 2025
著者: Adithya S Kolavi, Vyoman Jain
cs.AI
要旨
マルチモーダル文書検索システムは、意味検索における視覚的コンテンツとテキストコンテンツの整合性に関して著しい進歩を示してきた。しかし、既存手法の大半は依然として英語中心に偏っており、多言語環境での有効性が制限されている。本研究では、この言語間の隔たりを埋め、多様な言語的・文化的文脈に適用可能なフレームワークであるM3DR(Multilingual Multimodal Document Retrieval)を提案する。M3DRは合成多言語文書データを活用し、異なる視覚言語アーキテクチャとモデルサイズにわたって汎化することで、堅牢な言語間・モダリティ間整合を実現する。対照学習を用いて、我々のモデルはテキストと文書画像の統一された表現を学習し、それを言語間で効果的に転移させる。この能力を、類型論的に多様な22言語で検証し、言語や文字体系の変種にわたる一貫した性能と適応性を実証する。さらに、実世界の多言語シナリオを捉えた総合的なベンチマークを導入し、単一言語、多言語、混合言語設定下でのモデル評価を行う。M3DRは、単一の密ベクトルとColBERTスタイルのトークンレベルマルチベクトル検索の両パラダイムにわたって汎化する。我々のモデルであるNetraEmbedとColNetraEmbedは、言語間検索において約150%の相対的改善で最先端の性能を達成する。
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.