M3DR : Vers une recherche universelle de documents multilingues et multimodaux
M3DR: Towards Universal Multilingual Multimodal Document Retrieval
December 3, 2025
papers.authors: Adithya S Kolavi, Vyoman Jain
cs.AI
papers.abstract
Les systèmes de récupération de documents multimodaux ont réalisé des progrès significatifs dans l'alignement du contenu visuel et textuel pour la recherche sémantique. Cependant, la plupart des approches existantes restent fortement centrées sur l'anglais, limitant leur efficacité dans des contextes multilingues. Dans ce travail, nous présentons M3DR (Multilingual Multimodal Document Retrieval), un cadre conçu pour combler cette lacune à travers les langues, permettant une applicabilité dans divers contextes linguistiques et culturels. M3DR exploite des données documentaires multilingues synthétiques et se généralise à différentes architectures vision-langage et tailles de modèles, permettant un alignement robuste translinguistique et transmodal. Grâce à un apprentissage par contraste, nos modèles apprennent des représentations unifiées pour le texte et les images de documents qui se transfèrent efficacement entre les langues. Nous validons cette capacité sur 22 langues typologiquement diverses, démontrant des performances constantes et une adaptabilité face aux variations linguistiques et scripturales. Nous introduisons en outre un benchmark complet qui capture des scénarios multilingues réalistes, évaluant les modèles dans des contextes monolingues, multilingues et mixtes. M3DR se généralise à la fois aux paradigmes de récupération par vecteur dense unique et multi-vecteurs de type ColBERT. Nos modèles, NetraEmbed et ColNetraEmbed, atteignent des performances de pointe avec des améliorations relatives d'environ 150 % en récupération translinguistique.
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.