M3DR: Rumo à Recuperação Universal de Documentos Multimodais Multilíngues

Resumo

Os sistemas de recuperação de documentos multimodais têm demonstrado avanços significativos no alinhamento de conteúdo visual e textual para busca semântica. No entanto, a maioria das abordagens existentes permanece fortemente centrada no inglês, limitando sua eficácia em contextos multilingues. Neste trabalho, apresentamos o M3DR (Recuperação de Documentos Multimodais Multilingues), uma estrutura projetada para preencher essa lacuna entre idiomas, permitindo aplicabilidade em diversos contextos linguísticos e culturais. O M3DR aproveita dados sintéticos de documentos multilingues e generaliza-se em diferentes arquiteturas visão-linguagem e tamanhos de modelo, permitindo um alinhamento robusto entre modalidades e idiomas. Usando treinamento contrastivo, nossos modelos aprendem representações unificadas para texto e imagens de documentos que se transferem eficazmente entre línguas. Validamos essa capacidade em 22 idiomas tipologicamente diversos, demonstrando desempenho consistente e adaptabilidade através de variações linguísticas e de escrita. Introduzimos ainda um benchmark abrangente que captura cenários multilingues do mundo real, avaliando modelos em configurações monolíngues, multilingues e de idiomas mistos. O M3DR generaliza-se tanto para paradigmas de recuperação de vetor único denso quanto para paradigmas de recuperação multi-vetor a nível de token no estilo ColBERT. Nossos modelos, NetraEmbed e ColNetraEmbed, alcançam desempenho de ponta com melhorias relativas de ~150% na recuperação cross-lingual.

English

Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.