M3DR: Op weg naar universele meertalige multimodale documentretrieval
M3DR: Towards Universal Multilingual Multimodal Document Retrieval
December 3, 2025
Auteurs: Adithya S Kolavi, Vyoman Jain
cs.AI
Samenvatting
Meertalige multimodale documentretrievalsystemen hebben een sterke vooruitgang geboekt in het afstemmen van visuele en tekstuele inhoud voor semantisch zoeken. De meeste bestaande benaderingen blijven echter sterk Engelstalig gericht, wat hun effectiviteit in meertalige contexten beperkt. In dit werk presenteren we M3DR (Multilingual Multimodal Document Retrieval), een raamwerk ontworpen om deze kloof tussen talen te overbruggen, waardoor toepasbaarheid in diverse linguïstische en culturele contexten mogelijk wordt. M3DR maakt gebruik van synthetische meertalige documentgegevens en generaliseert over verschillende vision-language architecturen en modelgroottes, wat een robuuste cross-linguale en cross-modale afstemming mogelijk maakt. Door middel van contrastieve training leren onze modellen verenigde representaties voor tekst en documentafbeeldingen die effectief overdraagbaar zijn tussen talen. We valideren deze capaciteit op 22 typologisch diverse talen en tonen consistente prestaties en aanpasbaarheid aan linguïstische en schriftvariatie aan. We introduceren verder een uitgebreide benchmark die realistische meertalige scenario's vastlegt, waarbij modellen worden geëvalueerd onder eentalige, meertalige en gemengde taalinstellingen. M3DR generaliseert over zowel retrievalparadigma's met enkele dense vector als met ColBERT-stijl token-level multi-vector retrieval. Onze modellen, NetraEmbed en ColNetraEmbed, bereiken state-of-the-art prestaties met relatieve verbeteringen van ~150% bij cross-linguale retrieval.
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.