ChatPaper.aiChatPaper

M3DR: Auf dem Weg zu einer universellen mehrsprachigen multimodalen Dokumentenretrieval

M3DR: Towards Universal Multilingual Multimodal Document Retrieval

December 3, 2025
papers.authors: Adithya S Kolavi, Vyoman Jain
cs.AI

papers.abstract

Multimodale Dokumentenretrievalsysteme haben deutliche Fortschritte bei der Abgleichung visueller und textueller Inhalte für die semantische Suche gezeigt. Die meisten bestehenden Ansätze bleiben jedoch stark englisch-zentriert, was ihre Effektivität in multilingualen Kontexten einschränkt. In dieser Arbeit stellen wir M3DR (Multilingual Multimodal Document Retrieval) vor, ein Framework, das entwickelt wurde, um diese Lücke über Sprachen hinweg zu schließen und so die Anwendbarkeit in verschiedenen linguistischen und kulturellen Kontexten zu ermöglichen. M3DR nutzt synthetische multilinguale Dokumentendaten und verallgemeinert über verschiedene Vision-Language-Architekturen und Modellgrößen hinweg, was eine robuste cross-linguale und cross-modale Abgleichung ermöglicht. Mittels kontrastiven Trainings erlernen unsere Modelle vereinheitlichte Repräsentationen für Text und Dokumentenbilder, die effektiv über Sprachen hinweg übertragbar sind. Wir validieren diese Fähigkeit anhand von 22 typologisch diversen Sprachen und demonstrieren konsistente Leistung und Anpassungsfähigkeit über linguistische und schriftspezifische Variationen hinweg. Des Weiteren führen wir einen umfassenden Benchmark ein, der realweltliche multilinguale Szenarien abbildet und Modelle unter monolingualen, multilingualen und gemischtsprachigen Bedingungen evaluiert. M3DR verallgemeinert sowohl für Single-Dense-Vector- als auch für ColBERT-artige Token-Level-Multi-Vector-Retrieval-Paradigmen. Unsere Modelle NetraEmbed und ColNetraEmbed erzielen State-of-the-Art-Leistungen mit relativen Verbesserungen von ~150 % beim cross-lingualen Retrieval.
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.
PDF72December 9, 2025