M3DR: На пути к универсальной многоязычной мультимодальной системе поиска документов
M3DR: Towards Universal Multilingual Multimodal Document Retrieval
December 3, 2025
Авторы: Adithya S Kolavi, Vyoman Jain
cs.AI
Аннотация
Мультимодальные системы поиска документов демонстрируют значительный прогресс в согласовании визуального и текстового контента для семантического поиска. Однако большинство существующих подходов остаются в значительной степени ориентированными на английский язык, что ограничивает их эффективность в многоязычных контекстах. В данной работе мы представляем M3DR (Multilingual Multimodal Document Retrieval) — фреймворк, разработанный для преодоления этого разрыва между языками, что обеспечивает применимость в разнообразных лингвистических и культурных контекстах. M3DR использует синтетические многоязычные данные документов и обобщает различные архитектуры «визуальный язык-текст» и размеры моделей, обеспечивая надежное кросс-лингвальное и кросс-модальное согласование. С помощью контрастивного обучения наши модели изучают унифицированные представления для текста и изображений документов, которые эффективно переносятся между языками. Мы проверяем эту возможность на 22 типологически разнообразных языках, демонстрируя стабильную производительность и адаптивность к лингвистическим вариациям и вариациям письменности. Мы также представляем комплексный бенчмарк, отражающий реальные многоязычные сценарии, и оцениваем модели в условиях одноязычного, многоязычного и смешанного языкового поиска. M3DR обобщает как парадигмы поиска с одним плотным вектором, так и парадигмы поиска на уровне токенов с несколькими векторами в стиле ColBERT. Наши модели NetraEmbed и ColNetraEmbed достигают наилучшей производительности с относительным улучшением примерно на 150% при кросс-лингвальном поиске.
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.