ChatPaper.aiChatPaper

VLM2Vec : Entraînement de modèles vision-langage pour des tâches d'incorporation multimodale massive.

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

October 7, 2024
Auteurs: Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen
cs.AI

Résumé

Les modèles d'incorporation ont été cruciaux pour permettre diverses tâches en aval telles que la similarité sémantique, la recherche d'informations et le regroupement. Récemment, il y a eu un regain d'intérêt pour le développement de modèles universels d'incorporation de texte capables de généraliser à travers les tâches (par exemple, MTEB). Cependant, les progrès dans l'apprentissage de modèles universels d'incorporation multimodale ont été relativement lents malgré leur importance. Dans ce travail, nous visons à explorer le potentiel de construction d'incorporations universelles capables de gérer une large gamme de tâches en aval. Nos contributions sont doubles : (1) MMEB (Banc d'essai d'incorporation multimodale massive), qui couvre 4 méta-tâches (c'est-à-dire classification, réponse à des questions visuelles, recherche multimodale et ancrage visuel) et 36 ensembles de données, comprenant 20 ensembles de données d'entraînement et 16 ensembles de données d'évaluation, et (2) VLM2Vec (Modèle Vision-Langage -> Vecteur), un cadre d'entraînement contrastif qui convertit tout modèle vision-langage de pointe en un modèle d'incorporation via l'entraînement sur MMEB. Contrairement aux modèles précédents tels que CLIP et BLIP, VLM2Vec peut traiter n'importe quelle combinaison d'images et de texte pour générer un vecteur de dimension fixe en fonction des instructions de la tâche. Nous construisons une série de modèles VLM2Vec sur Phi-3.5-V et les évaluons sur la division d'évaluation de MMEB. Nos résultats montrent que le modèle obtient une amélioration moyenne absolue de 10 % à 20 % par rapport aux modèles d'incorporation multimodaux existants, à la fois sur les ensembles de données en distribution et hors distribution de MMEB.
English
Embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering. Recently, there has been a surge of interest in developing universal text embedding models that can generalize across tasks (e.g., MTEB). However, progress in learning universal multimodal embedding models has been relatively slow despite their importance. In this work, we aim to explore the potential for building universal embeddings capable of handling a wide range of downstream tasks. Our contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark), which covers 4 meta-tasks (i.e. classification, visual question answering, multimodal retrieval, and visual grounding) and 36 datasets, including 20 training and 16 evaluation datasets, and (2) VLM2Vec (Vision-Language Model -> Vector), a contrastive training framework that converts any state-of-the-art vision-language model into an embedding model via training on MMEB. Unlike previous models such as CLIP and BLIP, VLM2Vec can process any combination of images and text to generate a fixed-dimensional vector based on task instructions. We build a series of VLM2Vec models on Phi-3.5-V and evaluate them on MMEB's evaluation split. Our results show that \model achieves an absolute average improvement of 10% to 20% over existing multimodal embedding models on both in-distribution and out-of-distribution datasets in MMEB.

Summary

AI-Generated Summary

PDF42November 16, 2024