E5-V: Universale Einbettungen mit multimodalen großen Sprachmodellen
E5-V: Universal Embeddings with Multimodal Large Language Models
July 17, 2024
Autoren: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Fortschritte in der allgemeinen visuellen und sprachlichen Verständnis gezeigt. Die Darstellung multimodaler Informationen mithilfe von MLLMs ist jedoch weitgehend unerforscht. In dieser Arbeit stellen wir ein neues Framework, E5-V, vor, das entwickelt wurde, um MLLMs für die Erzielung universeller multimodaler Einbettungen anzupassen. Unsere Ergebnisse heben das signifikante Potenzial von MLLMs bei der Darstellung multimodaler Eingaben im Vergleich zu früheren Ansätzen hervor. Durch die Nutzung von MLLMs mit Anweisungen überbrückt E5-V effektiv die Modalitätslücke zwischen verschiedenen Arten von Eingaben und zeigt eine starke Leistung bei multimodalen Einbettungen, selbst ohne Feinabstimmung. Wir schlagen einen Ansatz für das Training mit einer einzigen Modalität für E5-V vor, bei dem das Modell ausschließlich auf Textpaaren trainiert wird. Diese Methode zeigt signifikante Verbesserungen gegenüber dem traditionellen multimodalen Training an Bild-Text-Paaren und reduziert die Trainingskosten um etwa 95%. Darüber hinaus beseitigt dieser Ansatz die Notwendigkeit für teure Datensammlungen für multimodales Training. Umfangreiche Experimente über vier Arten von Aufgaben zeigen die Wirksamkeit von E5-V. Als universelles multimodales Modell erreicht E5-V nicht nur, sondern übertrifft oft die Leistung des aktuellen Standes der Technik in jeder Aufgabe, obwohl es nur auf einer einzigen Modalität trainiert wurde.
English
Multimodal large language models (MLLMs) have shown promising advancements in
general visual and language understanding. However, the representation of
multimodal information using MLLMs remains largely unexplored. In this work, we
introduce a new framework, E5-V, designed to adapt MLLMs for achieving
universal multimodal embeddings. Our findings highlight the significant
potential of MLLMs in representing multimodal inputs compared to previous
approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the
modality gap between different types of inputs, demonstrating strong
performance in multimodal embeddings even without fine-tuning. We propose a
single modality training approach for E5-V, where the model is trained
exclusively on text pairs. This method demonstrates significant improvements
over traditional multimodal training on image-text pairs, while reducing
training costs by approximately 95%. Additionally, this approach eliminates the
need for costly multimodal training data collection. Extensive experiments
across four types of tasks demonstrate the effectiveness of E5-V. As a
universal multimodal model, E5-V not only achieves but often surpasses
state-of-the-art performance in each task, despite being trained on a single
modality.Summary
AI-Generated Summary