ChatPaper.aiChatPaper

M3DR: Hacia la Recuperación Universal de Documentos Multilingües y Multimodales

M3DR: Towards Universal Multilingual Multimodal Document Retrieval

December 3, 2025
Autores: Adithya S Kolavi, Vyoman Jain
cs.AI

Resumen

Los sistemas de recuperación de documentos multimodales han mostrado avances significativos en la alineación de contenido visual y textual para la búsqueda semántica. Sin embargo, la mayoría de los enfoques existentes siguen estando fuertemente centrados en el inglés, lo que limita su eficacia en contextos multilingües. En este trabajo, presentamos M3DR (Recuperación de Documentos Multilingüe y Multimodal), un marco diseñado para cerrar esta brecha entre idiomas, permitiendo aplicabilidad en diversos contextos lingüísticos y culturales. M3DR aprovecha datos sintéticos de documentos multilingües y se generaliza a través de diferentes arquitecturas de visión y lenguaje y tamaños de modelos, permitiendo una alineación robusta entre modalidades y lenguas. Mediante entrenamiento contrastivo, nuestros modelos aprenden representaciones unificadas para texto e imágenes de documentos que se transfieren eficazmente entre idiomas. Validamos esta capacidad en 22 lenguas tipológicamente diversas, demostrando un rendimiento consistente y adaptabilidad ante variaciones lingüísticas y de escritura. Además, introducimos un benchmark integral que captura escenarios multilingües del mundo real, evaluando modelos en entornos monolingües, multilingües y de lenguaje mixto. M3DR se generaliza tanto a paradigmas de recuperación de vector denso único como a paradigmas de recuperación multi-vector a nivel de token estilo ColBERT. Nuestros modelos, NetraEmbed y ColNetraEmbed, logran un rendimiento de vanguardia con mejoras relativas de aproximadamente el 150% en la recuperación translingüe.
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.
PDF72December 9, 2025