E5-V : Embeddings universels avec des modèles de langage multimodaux à grande échelle
E5-V: Universal Embeddings with Multimodal Large Language Models
July 17, 2024
Auteurs: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) ont montré des avancées prometteuses dans la compréhension générale visuelle et linguistique. Cependant, la représentation des informations multimodales à l'aide de MLLMs reste largement inexplorée. Dans ce travail, nous introduisons un nouveau cadre, E5-V, conçu pour adapter les MLLMs afin d'obtenir des embeddings multimodaux universels. Nos résultats mettent en évidence le potentiel significatif des MLLMs dans la représentation des entrées multimodales par rapport aux approches précédentes. En exploitant les MLLMs avec des prompts, E5-V comble efficacement l'écart de modalité entre différents types d'entrées, démontrant une performance solide dans les embeddings multimodaux même sans ajustement fin. Nous proposons une approche d'entraînement sur une seule modalité pour E5-V, où le modèle est entraîné exclusivement sur des paires de textes. Cette méthode montre des améliorations significatives par rapport à l'entraînement multimodal traditionnel sur des paires image-texte, tout en réduisant les coûts d'entraînement d'environ 95 %. De plus, cette approche élimine le besoin de collecte coûteuse de données d'entraînement multimodales. Des expériences approfondies sur quatre types de tâches démontrent l'efficacité d'E5-V. En tant que modèle multimodal universel, E5-V non seulement atteint mais dépasse souvent les performances de pointe dans chaque tâche, malgré un entraînement sur une seule modalité.
English
Multimodal large language models (MLLMs) have shown promising advancements in
general visual and language understanding. However, the representation of
multimodal information using MLLMs remains largely unexplored. In this work, we
introduce a new framework, E5-V, designed to adapt MLLMs for achieving
universal multimodal embeddings. Our findings highlight the significant
potential of MLLMs in representing multimodal inputs compared to previous
approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the
modality gap between different types of inputs, demonstrating strong
performance in multimodal embeddings even without fine-tuning. We propose a
single modality training approach for E5-V, where the model is trained
exclusively on text pairs. This method demonstrates significant improvements
over traditional multimodal training on image-text pairs, while reducing
training costs by approximately 95%. Additionally, this approach eliminates the
need for costly multimodal training data collection. Extensive experiments
across four types of tasks demonstrate the effectiveness of E5-V. As a
universal multimodal model, E5-V not only achieves but often surpasses
state-of-the-art performance in each task, despite being trained on a single
modality.Summary
AI-Generated Summary