M3DR: Verso un Recupero Universale di Documenti Multilingue e Multimodale
M3DR: Towards Universal Multilingual Multimodal Document Retrieval
December 3, 2025
Autori: Adithya S Kolavi, Vyoman Jain
cs.AI
Abstract
I sistemi di recupero multimodale di documenti hanno dimostrato significativi progressi nell'allineamento di contenuti visivi e testuali per la ricerca semantica. Tuttavia, la maggior parte degli approcci esistenti rimane fortemente incentrata sull'inglese, limitandone l'efficacia in contesti multilingue. In questo lavoro, presentiamo M3DR (Multilingual Multimodal Document Retrieval), un framework progettato per colmare questa lacuna tra le lingue, consentendo l'applicabilità in diversi contesti linguistici e culturali. M3DR sfrutta dati sintetici di documenti multilingue e generalizza diverse architetture visione-linguaggio e dimensioni di modello, abilitando un solido allineamento cross-linguale e cross-modale. Utilizzando l'addestramento contrastivo, i nostri modelli apprendono rappresentazioni unificate per il testo e le immagini dei documenti che si trasferiscono efficacemente tra le lingue. Convalidiamo questa capacità su 22 lingue tipologicamente diverse, dimostrando prestazioni consistenti e adattabilità attraverso variazioni linguistiche e di scrittura. Introduciamo inoltre un benchmark completo che cattura scenari multilingue del mondo reale, valutando i modelli in contesti monolingue, multilingue e con lingue miste. M3DR generalizza sia i paradigmi di recupero a vettore denso singolo che quelli multi-vettore a livello di token di tipo ColBERT. I nostri modelli, NetraEmbed e ColNetraEmbed, raggiungono prestazioni all'avanguardia con miglioramenti relativi di circa il 150% nel recupero cross-linguale.
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.