ModernVBERT: Verso Modelli Compatti per il Recupero Visivo di Documenti

Abstract

I modelli di embedding multimodale stanno guadagnando popolarità, in particolare per il recupero di documenti come alternative efficienti alle pipeline basate esclusivamente sul testo. Questi modelli sono tipicamente costruiti ottimizzando grandi decoder visione-linguaggio (VLMs) con perdite contrastive su coppie testo-immagine. In questo lavoro, dimostriamo che, sebbene economicamente vantaggioso, questo approccio di riutilizzo spesso rappresenta un collo di bottiglia per le prestazioni di recupero. Attraverso esperimenti controllati, stabiliamo una ricetta metodologica per migliorare i modelli di recupero visivo di documenti. Misuriamo in particolare l'impatto del mascheramento dell'attenzione, della risoluzione delle immagini, dei regimi di allineamento delle modalità e degli obiettivi contrastive centrati sull'interazione tardiva, che emergono come fattori centrali per le prestazioni. Basandoci su queste intuizioni, rilasciamo ModernVBERT, un encoder visione-linguaggio compatto da 250M parametri che supera modelli fino a 10 volte più grandi quando ottimizzato per compiti di recupero di documenti. Modelli e codice sono disponibili all'indirizzo https://huggingface.co/ModernVBERT.

English

Multimodal embedding models are gaining prevalence, notably for document retrieval as efficient alternatives to text-only pipelines. These models are typically built by finetuning large vision-language decoders (VLMs) with contrastive losses on text-image pairs. In this work, we show that, while cost-efficient, this repurposing approach often bottlenecks retrieval performance. Through controlled experiments, we establish a principled recipe for improving visual document retrieval models. We notably measure the impact of attention masking, image resolution, modality alignment data regimes, and late interaction centered contrastive objectives which emerge as central performance factors. Building on these insights, we release ModernVBERT, a compact 250M-parameter vision-language encoder that outperforms models up to 10 times larger when finetuned on document retrieval tasks. Models and code are made available at https://huggingface.co/ModernVBERT.

ModernVBERT: Verso Modelli Compatti per il Recupero Visivo di Documenti

ModernVBERT: Towards Smaller Visual Document Retrievers

Abstract

Support