ChatPaper.aiChatPaper

VLM2Vec: Training von Vision-Sprache-Modellen für umfangreiche multimodale Einbettungsaufgaben

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

October 7, 2024
Autoren: Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen
cs.AI

Zusammenfassung

Einbettungsmodelle waren entscheidend für die Ermöglichung verschiedener nachgelagerter Aufgaben wie semantische Ähnlichkeit, Informationssuche und Clustering. In letzter Zeit gab es ein starkes Interesse an der Entwicklung universeller Texteinbettungsmodelle, die über Aufgaben hinweg generalisieren können (z. B. MTEB). Der Fortschritt bei der Entwicklung universeller multimodaler Einbettungsmodelle war trotz ihrer Bedeutung relativ langsam. In dieser Arbeit zielen wir darauf ab, das Potenzial für den Aufbau universeller Einbettungen zu erforschen, die in der Lage sind, eine Vielzahl von nachgelagerten Aufgaben zu bewältigen. Unsere Beiträge sind zweifach: (1) MMEB (Massives Multimodales Einbettungsbenchmark), das 4 Metaaufgaben abdeckt (d. h. Klassifizierung, visuelle Fragebeantwortung, multimodale Suche und visuelle Verankerung) und 36 Datensätze umfasst, darunter 20 Trainings- und 16 Evaluierungsdatensätze, und (2) VLM2Vec (Vision-Sprachmodell -> Vektor), ein kontrastives Schulungsrahmenwerk, das jedes modernste Vision-Sprachmodell in ein Einbettungsmodell umwandelt, indem es auf MMEB trainiert wird. Im Gegensatz zu früheren Modellen wie CLIP und BLIP kann VLM2Vec beliebige Kombinationen von Bildern und Text verarbeiten, um basierend auf den Aufgabenanweisungen einen festen Vektor zu generieren. Wir erstellen eine Reihe von VLM2Vec-Modellen auf Phi-3.5-V und bewerten sie anhand der Evaluierungsaufteilung von MMEB. Unsere Ergebnisse zeigen, dass das Modell eine absolute durchschnittliche Verbesserung von 10 % bis 20 % gegenüber bestehenden multimodalen Einbettungsmodellen sowohl in In- als auch in Out-of-Distribution-Datensätzen in MMEB erzielt.
English
Embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering. Recently, there has been a surge of interest in developing universal text embedding models that can generalize across tasks (e.g., MTEB). However, progress in learning universal multimodal embedding models has been relatively slow despite their importance. In this work, we aim to explore the potential for building universal embeddings capable of handling a wide range of downstream tasks. Our contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark), which covers 4 meta-tasks (i.e. classification, visual question answering, multimodal retrieval, and visual grounding) and 36 datasets, including 20 training and 16 evaluation datasets, and (2) VLM2Vec (Vision-Language Model -> Vector), a contrastive training framework that converts any state-of-the-art vision-language model into an embedding model via training on MMEB. Unlike previous models such as CLIP and BLIP, VLM2Vec can process any combination of images and text to generate a fixed-dimensional vector based on task instructions. We build a series of VLM2Vec models on Phi-3.5-V and evaluate them on MMEB's evaluation split. Our results show that \model achieves an absolute average improvement of 10% to 20% over existing multimodal embedding models on both in-distribution and out-of-distribution datasets in MMEB.

Summary

AI-Generated Summary

PDF42November 16, 2024