ChatPaper.aiChatPaper

E5-V : Embeddings universels avec des modèles de langage multimodaux à grande échelle

E5-V: Universal Embeddings with Multimodal Large Language Models

July 17, 2024
Auteurs: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI

Résumé

Les modèles de langage multimodaux de grande taille (MLLMs) ont montré des avancées prometteuses dans la compréhension générale visuelle et linguistique. Cependant, la représentation des informations multimodales à l'aide de MLLMs reste largement inexplorée. Dans ce travail, nous introduisons un nouveau cadre, E5-V, conçu pour adapter les MLLMs afin d'obtenir des embeddings multimodaux universels. Nos résultats mettent en évidence le potentiel significatif des MLLMs dans la représentation des entrées multimodales par rapport aux approches précédentes. En exploitant les MLLMs avec des prompts, E5-V comble efficacement l'écart de modalité entre différents types d'entrées, démontrant une performance solide dans les embeddings multimodaux même sans ajustement fin. Nous proposons une approche d'entraînement sur une seule modalité pour E5-V, où le modèle est entraîné exclusivement sur des paires de textes. Cette méthode montre des améliorations significatives par rapport à l'entraînement multimodal traditionnel sur des paires image-texte, tout en réduisant les coûts d'entraînement d'environ 95 %. De plus, cette approche élimine le besoin de collecte coûteuse de données d'entraînement multimodales. Des expériences approfondies sur quatre types de tâches démontrent l'efficacité d'E5-V. En tant que modèle multimodal universel, E5-V non seulement atteint mais dépasse souvent les performances de pointe dans chaque tâche, malgré un entraînement sur une seule modalité.
English
Multimodal large language models (MLLMs) have shown promising advancements in general visual and language understanding. However, the representation of multimodal information using MLLMs remains largely unexplored. In this work, we introduce a new framework, E5-V, designed to adapt MLLMs for achieving universal multimodal embeddings. Our findings highlight the significant potential of MLLMs in representing multimodal inputs compared to previous approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the modality gap between different types of inputs, demonstrating strong performance in multimodal embeddings even without fine-tuning. We propose a single modality training approach for E5-V, where the model is trained exclusively on text pairs. This method demonstrates significant improvements over traditional multimodal training on image-text pairs, while reducing training costs by approximately 95%. Additionally, this approach eliminates the need for costly multimodal training data collection. Extensive experiments across four types of tasks demonstrate the effectiveness of E5-V. As a universal multimodal model, E5-V not only achieves but often surpasses state-of-the-art performance in each task, despite being trained on a single modality.

Summary

AI-Generated Summary

PDF413November 28, 2024