E5-V: 멀티모달 대형 언어 모델을 활용한 범용 임베딩
E5-V: Universal Embeddings with Multimodal Large Language Models
July 17, 2024
저자: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)은 일반적인 시각 및 언어 이해 분야에서 유망한 발전을 보여왔습니다. 그러나 MLLMs를 사용한 멀티모달 정보의 표현은 아직 크게 탐구되지 않은 상태입니다. 본 연구에서는 MLLMs를 적응시켜 범용 멀티모달 임베딩을 달성하기 위해 새로운 프레임워크인 E5-V를 소개합니다. 우리의 연구 결과는 MLLMs가 이전 접근 방식에 비해 멀티모달 입력을 표현하는 데 있어 상당한 잠재력을 가지고 있음을 강조합니다. 프롬프트와 함께 MLLMs를 활용함으로써, E5-V는 다양한 유형의 입력 간의 모달리티 격차를 효과적으로 해소하며, 미세 조정 없이도 강력한 멀티모달 임베딩 성능을 보여줍니다. 우리는 E5-V를 위한 단일 모달리티 학습 접근 방식을 제안하는데, 이 모델은 텍스트 쌍에 대해서만 학습됩니다. 이 방법은 이미지-텍스트 쌍에 대한 전통적인 멀티모달 학습보다 상당한 개선을 보여주면서도 학습 비용을 약 95% 절감합니다. 또한, 이 접근 방식은 비용이 많이 드는 멀티모달 학습 데이터 수집의 필요성을 제거합니다. 네 가지 유형의 작업에 걸친 광범위한 실험은 E5-V의 효과성을 입증합니다. 범용 멀티모달 모델로서, E5-V는 단일 모달리티로 학습되었음에도 불구하고 각 작업에서 최신 기술 수준의 성능을 달성하거나 이를 능가합니다.
English
Multimodal large language models (MLLMs) have shown promising advancements in
general visual and language understanding. However, the representation of
multimodal information using MLLMs remains largely unexplored. In this work, we
introduce a new framework, E5-V, designed to adapt MLLMs for achieving
universal multimodal embeddings. Our findings highlight the significant
potential of MLLMs in representing multimodal inputs compared to previous
approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the
modality gap between different types of inputs, demonstrating strong
performance in multimodal embeddings even without fine-tuning. We propose a
single modality training approach for E5-V, where the model is trained
exclusively on text pairs. This method demonstrates significant improvements
over traditional multimodal training on image-text pairs, while reducing
training costs by approximately 95%. Additionally, this approach eliminates the
need for costly multimodal training data collection. Extensive experiments
across four types of tasks demonstrate the effectiveness of E5-V. As a
universal multimodal model, E5-V not only achieves but often surpasses
state-of-the-art performance in each task, despite being trained on a single
modality.Summary
AI-Generated Summary