ModernVBERT: 더 작은 시각적 문서 검색기를 향하여
ModernVBERT: Towards Smaller Visual Document Retrievers
October 1, 2025
저자: Paul Teiletche, Quentin Macé, Max Conti, Antonio Loison, Gautier Viaud, Pierre Colombo, Manuel Faysse
cs.AI
초록
멀티모달 임베딩 모델은 텍스트 전용 파이프라인의 효율적인 대안으로서, 특히 문서 검색 분야에서 점점 더 널리 사용되고 있습니다. 이러한 모델들은 일반적으로 대규모 시각-언어 디코더(VLMs)를 텍스트-이미지 쌍에 대한 대조 손실(contrastive loss)로 미세 조정하여 구축됩니다. 본 연구에서는 이러한 재활용 접근 방식이 비용 효율적이기는 하지만, 종종 검색 성능의 병목 현상을 초래한다는 것을 보여줍니다. 통제된 실험을 통해, 우리는 시각적 문서 검색 모델을 개선하기 위한 원칙적인 방법론을 정립했습니다. 특히, 주의 마스킹(attention masking), 이미지 해상도, 모달리티 정렬 데이터 체계, 그리고 핵심 성능 요소로 부각된 후기 상호작용 중심의 대조 목표(late interaction centered contrastive objectives)의 영향을 측정했습니다. 이러한 통찰을 바탕으로, 우리는 문서 검색 작업에 미세 조정 시 10배 더 큰 모델들을 능가하는 2억 5천만 파라미터 규모의 컴팩트한 시각-언어 인코더인 ModernVBERT를 공개합니다. 모델과 코드는 https://huggingface.co/ModernVBERT에서 이용 가능합니다.
English
Multimodal embedding models are gaining prevalence, notably for document
retrieval as efficient alternatives to text-only pipelines. These models are
typically built by finetuning large vision-language decoders (VLMs) with
contrastive losses on text-image pairs. In this work, we show that, while
cost-efficient, this repurposing approach often bottlenecks retrieval
performance. Through controlled experiments, we establish a principled recipe
for improving visual document retrieval models. We notably measure the impact
of attention masking, image resolution, modality alignment data regimes, and
late interaction centered contrastive objectives which emerge as central
performance factors. Building on these insights, we release ModernVBERT, a
compact 250M-parameter vision-language encoder that outperforms models up to 10
times larger when finetuned on document retrieval tasks. Models and code are
made available at https://huggingface.co/ModernVBERT.