ChatPaper.aiChatPaper

E5-V: Universale Einbettungen mit multimodalen großen Sprachmodellen

E5-V: Universal Embeddings with Multimodal Large Language Models

July 17, 2024
Autoren: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Fortschritte in der allgemeinen visuellen und sprachlichen Verständnis gezeigt. Die Darstellung multimodaler Informationen mithilfe von MLLMs ist jedoch weitgehend unerforscht. In dieser Arbeit stellen wir ein neues Framework, E5-V, vor, das entwickelt wurde, um MLLMs für die Erzielung universeller multimodaler Einbettungen anzupassen. Unsere Ergebnisse heben das signifikante Potenzial von MLLMs bei der Darstellung multimodaler Eingaben im Vergleich zu früheren Ansätzen hervor. Durch die Nutzung von MLLMs mit Anweisungen überbrückt E5-V effektiv die Modalitätslücke zwischen verschiedenen Arten von Eingaben und zeigt eine starke Leistung bei multimodalen Einbettungen, selbst ohne Feinabstimmung. Wir schlagen einen Ansatz für das Training mit einer einzigen Modalität für E5-V vor, bei dem das Modell ausschließlich auf Textpaaren trainiert wird. Diese Methode zeigt signifikante Verbesserungen gegenüber dem traditionellen multimodalen Training an Bild-Text-Paaren und reduziert die Trainingskosten um etwa 95%. Darüber hinaus beseitigt dieser Ansatz die Notwendigkeit für teure Datensammlungen für multimodales Training. Umfangreiche Experimente über vier Arten von Aufgaben zeigen die Wirksamkeit von E5-V. Als universelles multimodales Modell erreicht E5-V nicht nur, sondern übertrifft oft die Leistung des aktuellen Standes der Technik in jeder Aufgabe, obwohl es nur auf einer einzigen Modalität trainiert wurde.
English
Multimodal large language models (MLLMs) have shown promising advancements in general visual and language understanding. However, the representation of multimodal information using MLLMs remains largely unexplored. In this work, we introduce a new framework, E5-V, designed to adapt MLLMs for achieving universal multimodal embeddings. Our findings highlight the significant potential of MLLMs in representing multimodal inputs compared to previous approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the modality gap between different types of inputs, demonstrating strong performance in multimodal embeddings even without fine-tuning. We propose a single modality training approach for E5-V, where the model is trained exclusively on text pairs. This method demonstrates significant improvements over traditional multimodal training on image-text pairs, while reducing training costs by approximately 95%. Additionally, this approach eliminates the need for costly multimodal training data collection. Extensive experiments across four types of tasks demonstrate the effectiveness of E5-V. As a universal multimodal model, E5-V not only achieves but often surpasses state-of-the-art performance in each task, despite being trained on a single modality.

Summary

AI-Generated Summary

PDF413November 28, 2024