ChatPaper.aiChatPaper

M3DR: 범용 다국어 멀티모달 문서 검색을 위한 접근

M3DR: Towards Universal Multilingual Multimodal Document Retrieval

December 3, 2025
저자: Adithya S Kolavi, Vyoman Jain
cs.AI

초록

다중모달 문서 검색 시스템은 시맨틱 검색을 위한 시각 및 텍스트 콘텐츠 정렬에 있어 큰 진전을 보여왔습니다. 그러나 기존 대부분의 접근법은 여전히 영어 중심에 치우쳐 있어 다국어 환경에서의 효과성이 제한됩니다. 본 연구에서는 이러한 언어 간 격차를 해소하고 다양한 언어 및 문화적 맥락에서 적용 가능하도록 설계된 프레임워크인 M3DR(다국어 다중모달 문서 검색)을 제안합니다. M3DR은 합성 다국어 문서 데이터를 활용하며, 다양한 비전-언어 아키텍처와 모델 크기에 걸쳐 일반화되어 강력한 교차 언어 및 교차 모달 정렬을 가능하게 합니다. 대조 학습을 통해 우리의 모델은 언어 간에 효과적으로 전이되는 텍스트 및 문서 이미지에 대한 통합 표현을 학습합니다. 우리는 형태론적으로 다양한 22개 언어에서 이 능력을 검증하며, 언어 및 문자 체계 변이에 걸쳐 일관된 성능과 적응력을 입증합니다. 더 나아가 실제 다국어 시나리오를 포착하는 포괄적인 벤치마크를 도입하여 단일 언어, 다국어 및 혼합 언어 설정 하에서 모델을 평가합니다. M3DR은 단일 밀집 벡터 및 ColBERT 스타일의 토큰 수준 다중 벡터 검색 패러다임 모두에 걸쳐 일반화됩니다. 우리의 모델인 NetraEmbed와 ColNetraEmbed는 교차 언어 검색에서 약 150%의 상대적 성능 향상을 통해 최첨단 성능을 달성합니다.
English
Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.
PDF72December 9, 2025