VLM2Vec: Entrenamiento de Modelos Visión-Lenguaje para Tareas de Incrustación Multimodal Masivas
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks
October 7, 2024
Autores: Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen
cs.AI
Resumen
Los modelos de incrustación han sido cruciales para permitir diversas tareas posteriores como similitud semántica, recuperación de información y agrupamiento. Recientemente, ha habido un aumento de interés en desarrollar modelos de incrustación de texto universales que puedan generalizarse a través de tareas (por ejemplo, MTEB). Sin embargo, el progreso en el aprendizaje de modelos de incrustación multimodales universales ha sido relativamente lento a pesar de su importancia. En este trabajo, nuestro objetivo es explorar el potencial para construir incrustaciones universales capaces de manejar una amplia gama de tareas posteriores. Nuestras contribuciones son dobles: (1) MMEB (Banco de Pruebas de Incrustación Multimodal Masivo), que abarca 4 meta-tareas (es decir, clasificación, respuesta a preguntas visuales, recuperación multimodal y fundamentación visual) y 36 conjuntos de datos, incluidos 20 conjuntos de entrenamiento y 16 conjuntos de evaluación, y (2) VLM2Vec (Modelo Visión-Lenguaje -> Vector), un marco de entrenamiento contrastivo que convierte cualquier modelo de visión-lenguaje de vanguardia en un modelo de incrustación mediante el entrenamiento en MMEB. A diferencia de modelos anteriores como CLIP y BLIP, VLM2Vec puede procesar cualquier combinación de imágenes y texto para generar un vector de dimensionalidad fija basado en las instrucciones de la tarea. Construimos una serie de modelos VLM2Vec en Phi-3.5-V y los evaluamos en la división de evaluación de MMEB. Nuestros resultados muestran que el modelo logra una mejora promedio absoluta del 10% al 20% sobre los modelos de incrustación multimodales existentes tanto en conjuntos de datos dentro como fuera de distribución en MMEB.
English
Embedding models have been crucial in enabling various downstream tasks such
as semantic similarity, information retrieval, and clustering. Recently, there
has been a surge of interest in developing universal text embedding models that
can generalize across tasks (e.g., MTEB). However, progress in learning
universal multimodal embedding models has been relatively slow despite their
importance. In this work, we aim to explore the potential for building
universal embeddings capable of handling a wide range of downstream tasks. Our
contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark),
which covers 4 meta-tasks (i.e. classification, visual question answering,
multimodal retrieval, and visual grounding) and 36 datasets, including 20
training and 16 evaluation datasets, and (2) VLM2Vec (Vision-Language Model ->
Vector), a contrastive training framework that converts any state-of-the-art
vision-language model into an embedding model via training on MMEB. Unlike
previous models such as CLIP and BLIP, VLM2Vec can process any combination of
images and text to generate a fixed-dimensional vector based on task
instructions. We build a series of VLM2Vec models on Phi-3.5-V and evaluate
them on MMEB's evaluation split. Our results show that \model achieves an
absolute average improvement of 10% to 20% over existing multimodal embedding
models on both in-distribution and out-of-distribution datasets in MMEB.Summary
AI-Generated Summary