VLM2Vec: Entrenamiento de Modelos Visión-Lenguaje para Tareas de Incrustación Multimodal Masivas

Resumen

Los modelos de incrustación han sido cruciales para permitir diversas tareas posteriores como similitud semántica, recuperación de información y agrupamiento. Recientemente, ha habido un aumento de interés en desarrollar modelos de incrustación de texto universales que puedan generalizarse a través de tareas (por ejemplo, MTEB). Sin embargo, el progreso en el aprendizaje de modelos de incrustación multimodales universales ha sido relativamente lento a pesar de su importancia. En este trabajo, nuestro objetivo es explorar el potencial para construir incrustaciones universales capaces de manejar una amplia gama de tareas posteriores. Nuestras contribuciones son dobles: (1) MMEB (Banco de Pruebas de Incrustación Multimodal Masivo), que abarca 4 meta-tareas (es decir, clasificación, respuesta a preguntas visuales, recuperación multimodal y fundamentación visual) y 36 conjuntos de datos, incluidos 20 conjuntos de entrenamiento y 16 conjuntos de evaluación, y (2) VLM2Vec (Modelo Visión-Lenguaje -> Vector), un marco de entrenamiento contrastivo que convierte cualquier modelo de visión-lenguaje de vanguardia en un modelo de incrustación mediante el entrenamiento en MMEB. A diferencia de modelos anteriores como CLIP y BLIP, VLM2Vec puede procesar cualquier combinación de imágenes y texto para generar un vector de dimensionalidad fija basado en las instrucciones de la tarea. Construimos una serie de modelos VLM2Vec en Phi-3.5-V y los evaluamos en la división de evaluación de MMEB. Nuestros resultados muestran que el modelo logra una mejora promedio absoluta del 10% al 20% sobre los modelos de incrustación multimodales existentes tanto en conjuntos de datos dentro como fuera de distribución en MMEB.

English

Embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering. Recently, there has been a surge of interest in developing universal text embedding models that can generalize across tasks (e.g., MTEB). However, progress in learning universal multimodal embedding models has been relatively slow despite their importance. In this work, we aim to explore the potential for building universal embeddings capable of handling a wide range of downstream tasks. Our contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark), which covers 4 meta-tasks (i.e. classification, visual question answering, multimodal retrieval, and visual grounding) and 36 datasets, including 20 training and 16 evaluation datasets, and (2) VLM2Vec (Vision-Language Model -> Vector), a contrastive training framework that converts any state-of-the-art vision-language model into an embedding model via training on MMEB. Unlike previous models such as CLIP and BLIP, VLM2Vec can process any combination of images and text to generate a fixed-dimensional vector based on task instructions. We build a series of VLM2Vec models on Phi-3.5-V and evaluate them on MMEB's evaluation split. Our results show that \model achieves an absolute average improvement of 10% to 20% over existing multimodal embedding models on both in-distribution and out-of-distribution datasets in MMEB.

VLM2Vec: Entrenamiento de Modelos Visión-Lenguaje para Tareas de Incrustación Multimodal Masivas

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

Resumen

Support