ChatPaper.aiChatPaper

ModernVBERT: Hacia recuperadores visuales de documentos más pequeños

ModernVBERT: Towards Smaller Visual Document Retrievers

October 1, 2025
Autores: Paul Teiletche, Quentin Macé, Max Conti, Antonio Loison, Gautier Viaud, Pierre Colombo, Manuel Faysse
cs.AI

Resumen

Los modelos de incrustación multimodal están ganando prevalencia, especialmente para la recuperación de documentos como alternativas eficientes a los flujos de trabajo basados únicamente en texto. Estos modelos suelen construirse mediante el ajuste fino de grandes decodificadores de visión y lenguaje (VLMs) con pérdidas contrastivas en pares de texto-imagen. En este trabajo, demostramos que, aunque rentable, este enfoque de reutilización a menudo limita el rendimiento en la recuperación. A través de experimentos controlados, establecemos una receta fundamentada para mejorar los modelos de recuperación de documentos visuales. En particular, medimos el impacto del enmascaramiento de atención, la resolución de la imagen, los regímenes de datos de alineación de modalidades y los objetivos contrastivos centrados en la interacción tardía, que emergen como factores centrales de rendimiento. Basándonos en estas ideas, presentamos ModernVBERT, un codificador compacto de visión y lenguaje con 250 millones de parámetros que supera a modelos hasta 10 veces más grandes cuando se ajusta para tareas de recuperación de documentos. Los modelos y el código están disponibles en https://huggingface.co/ModernVBERT.
English
Multimodal embedding models are gaining prevalence, notably for document retrieval as efficient alternatives to text-only pipelines. These models are typically built by finetuning large vision-language decoders (VLMs) with contrastive losses on text-image pairs. In this work, we show that, while cost-efficient, this repurposing approach often bottlenecks retrieval performance. Through controlled experiments, we establish a principled recipe for improving visual document retrieval models. We notably measure the impact of attention masking, image resolution, modality alignment data regimes, and late interaction centered contrastive objectives which emerge as central performance factors. Building on these insights, we release ModernVBERT, a compact 250M-parameter vision-language encoder that outperforms models up to 10 times larger when finetuned on document retrieval tasks. Models and code are made available at https://huggingface.co/ModernVBERT.
PDF292October 3, 2025