ChatPaper.aiChatPaper

E5-V: 멀티모달 대형 언어 모델을 활용한 범용 임베딩

E5-V: Universal Embeddings with Multimodal Large Language Models

July 17, 2024
저자: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)은 일반적인 시각 및 언어 이해 분야에서 유망한 발전을 보여왔습니다. 그러나 MLLMs를 사용한 멀티모달 정보의 표현은 아직 크게 탐구되지 않은 상태입니다. 본 연구에서는 MLLMs를 적응시켜 범용 멀티모달 임베딩을 달성하기 위해 새로운 프레임워크인 E5-V를 소개합니다. 우리의 연구 결과는 MLLMs가 이전 접근 방식에 비해 멀티모달 입력을 표현하는 데 있어 상당한 잠재력을 가지고 있음을 강조합니다. 프롬프트와 함께 MLLMs를 활용함으로써, E5-V는 다양한 유형의 입력 간의 모달리티 격차를 효과적으로 해소하며, 미세 조정 없이도 강력한 멀티모달 임베딩 성능을 보여줍니다. 우리는 E5-V를 위한 단일 모달리티 학습 접근 방식을 제안하는데, 이 모델은 텍스트 쌍에 대해서만 학습됩니다. 이 방법은 이미지-텍스트 쌍에 대한 전통적인 멀티모달 학습보다 상당한 개선을 보여주면서도 학습 비용을 약 95% 절감합니다. 또한, 이 접근 방식은 비용이 많이 드는 멀티모달 학습 데이터 수집의 필요성을 제거합니다. 네 가지 유형의 작업에 걸친 광범위한 실험은 E5-V의 효과성을 입증합니다. 범용 멀티모달 모델로서, E5-V는 단일 모달리티로 학습되었음에도 불구하고 각 작업에서 최신 기술 수준의 성능을 달성하거나 이를 능가합니다.
English
Multimodal large language models (MLLMs) have shown promising advancements in general visual and language understanding. However, the representation of multimodal information using MLLMs remains largely unexplored. In this work, we introduce a new framework, E5-V, designed to adapt MLLMs for achieving universal multimodal embeddings. Our findings highlight the significant potential of MLLMs in representing multimodal inputs compared to previous approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the modality gap between different types of inputs, demonstrating strong performance in multimodal embeddings even without fine-tuning. We propose a single modality training approach for E5-V, where the model is trained exclusively on text pairs. This method demonstrates significant improvements over traditional multimodal training on image-text pairs, while reducing training costs by approximately 95%. Additionally, this approach eliminates the need for costly multimodal training data collection. Extensive experiments across four types of tasks demonstrate the effectiveness of E5-V. As a universal multimodal model, E5-V not only achieves but often surpasses state-of-the-art performance in each task, despite being trained on a single modality.

Summary

AI-Generated Summary

PDF413November 28, 2024