ModernVBERT: Hacia recuperadores visuales de documentos más pequeños
ModernVBERT: Towards Smaller Visual Document Retrievers
October 1, 2025
Autores: Paul Teiletche, Quentin Macé, Max Conti, Antonio Loison, Gautier Viaud, Pierre Colombo, Manuel Faysse
cs.AI
Resumen
Los modelos de incrustación multimodal están ganando prevalencia, especialmente para la recuperación de documentos como alternativas eficientes a los flujos de trabajo basados únicamente en texto. Estos modelos suelen construirse mediante el ajuste fino de grandes decodificadores de visión y lenguaje (VLMs) con pérdidas contrastivas en pares de texto-imagen. En este trabajo, demostramos que, aunque rentable, este enfoque de reutilización a menudo limita el rendimiento en la recuperación. A través de experimentos controlados, establecemos una receta fundamentada para mejorar los modelos de recuperación de documentos visuales. En particular, medimos el impacto del enmascaramiento de atención, la resolución de la imagen, los regímenes de datos de alineación de modalidades y los objetivos contrastivos centrados en la interacción tardía, que emergen como factores centrales de rendimiento. Basándonos en estas ideas, presentamos ModernVBERT, un codificador compacto de visión y lenguaje con 250 millones de parámetros que supera a modelos hasta 10 veces más grandes cuando se ajusta para tareas de recuperación de documentos. Los modelos y el código están disponibles en https://huggingface.co/ModernVBERT.
English
Multimodal embedding models are gaining prevalence, notably for document
retrieval as efficient alternatives to text-only pipelines. These models are
typically built by finetuning large vision-language decoders (VLMs) with
contrastive losses on text-image pairs. In this work, we show that, while
cost-efficient, this repurposing approach often bottlenecks retrieval
performance. Through controlled experiments, we establish a principled recipe
for improving visual document retrieval models. We notably measure the impact
of attention masking, image resolution, modality alignment data regimes, and
late interaction centered contrastive objectives which emerge as central
performance factors. Building on these insights, we release ModernVBERT, a
compact 250M-parameter vision-language encoder that outperforms models up to 10
times larger when finetuned on document retrieval tasks. Models and code are
made available at https://huggingface.co/ModernVBERT.