ChatPaper.aiChatPaper

VLM2Vec: 대규모 다중 모달 임베딩 작업을 위한 비전-언어 모델 훈련

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

October 7, 2024
저자: Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen
cs.AI

초록

임베딩 모델은 의미 유사성, 정보 검색 및 클러스터링과 같은 다양한 하위 작업을 가능하게 하는 데 중요했습니다. 최근에는 작업 간에 일반화할 수 있는 범용 텍스트 임베딩 모델을 개발하는 데 관심이 급증했습니다(MTEB 등). 그러나 중요성에도 불구하고 범용 멀티모달 임베딩 모델의 학습 진전은 상대적으로 느렸습니다. 본 연구에서는 다양한 하위 작업을 처리할 수 있는 범용 임베딩을 구축하는 잠재력을 탐색하는 것을 목표로 합니다. 우리의 기여는 두 가지입니다: (1) MMEB(Massive Multimodal Embedding Benchmark), 4개의 메타 작업(분류, 시각적 질문 응답, 멀티모달 검색 및 시각적 기준)과 20개의 훈련 데이터셋 및 16개의 평가 데이터셋을 포함한 36개의 데이터셋을 다루는 것, 그리고 (2) VLM2Vec(Vision-Language Model -> Vector), MMEB에서 훈련을 통해 어떤 최첨단 시각-언어 모델이든 임베딩 모델로 변환하는 대조적 훈련 프레임워크입니다. CLIP나 BLIP와 같은 이전 모델과 달리, VLM2Vec는 작업 지침에 따라 이미지와 텍스트의 어떤 조합도 처리하여 고정 차원 벡터를 생성할 수 있습니다. 우리는 Phi-3.5-V에서 일련의 VLM2Vec 모델을 구축하고 MMEB의 평가 분할에서 그들을 평가합니다. 결과는 \model이 MMEB의 인-분포 및 아웃-오브-분포 데이터셋 모두에서 기존의 멀티모달 임베딩 모델에 대해 절대 평균 개선률이 10%에서 20%에 이르는 것을 보여줍니다.
English
Embedding models have been crucial in enabling various downstream tasks such as semantic similarity, information retrieval, and clustering. Recently, there has been a surge of interest in developing universal text embedding models that can generalize across tasks (e.g., MTEB). However, progress in learning universal multimodal embedding models has been relatively slow despite their importance. In this work, we aim to explore the potential for building universal embeddings capable of handling a wide range of downstream tasks. Our contributions are twofold: (1) MMEB (Massive Multimodal Embedding Benchmark), which covers 4 meta-tasks (i.e. classification, visual question answering, multimodal retrieval, and visual grounding) and 36 datasets, including 20 training and 16 evaluation datasets, and (2) VLM2Vec (Vision-Language Model -> Vector), a contrastive training framework that converts any state-of-the-art vision-language model into an embedding model via training on MMEB. Unlike previous models such as CLIP and BLIP, VLM2Vec can process any combination of images and text to generate a fixed-dimensional vector based on task instructions. We build a series of VLM2Vec models on Phi-3.5-V and evaluate them on MMEB's evaluation split. Our results show that \model achieves an absolute average improvement of 10% to 20% over existing multimodal embedding models on both in-distribution and out-of-distribution datasets in MMEB.

Summary

AI-Generated Summary

PDF42November 16, 2024