E5-V: Embedding Universali con Modelli Linguistici Multimodali di Grande Scala
E5-V: Universal Embeddings with Multimodal Large Language Models
July 17, 2024
Autori: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno mostrato progressi promettenti nella comprensione generale di immagini e linguaggio. Tuttavia, la rappresentazione delle informazioni multimodali utilizzando MLLMs rimane in gran parte inesplorata. In questo lavoro, introduciamo un nuovo framework, E5-V, progettato per adattare gli MLLMs al fine di ottenere embedding multimodali universali. I nostri risultati evidenziano il significativo potenziale degli MLLMs nel rappresentare input multimodali rispetto agli approcci precedenti. Sfruttando gli MLLMs con prompt, E5-V colma efficacemente il divario tra le modalità di diversi tipi di input, dimostrando prestazioni solide negli embedding multimodali anche senza fine-tuning. Proponiamo un approccio di addestramento a singola modalità per E5-V, in cui il modello viene addestrato esclusivamente su coppie di testo. Questo metodo dimostra miglioramenti significativi rispetto all'addestramento multimodale tradizionale su coppie immagine-testo, riducendo i costi di addestramento di circa il 95%. Inoltre, questo approccio elimina la necessità di raccogliere costosi dati di addestramento multimodale. Esperimenti estesi su quattro tipi di task dimostrano l'efficacia di E5-V. Come modello multimodale universale, E5-V non solo raggiunge ma spesso supera le prestazioni state-of-the-art in ciascun task, nonostante sia stato addestrato su una singola modalità.
English
Multimodal large language models (MLLMs) have shown promising advancements in
general visual and language understanding. However, the representation of
multimodal information using MLLMs remains largely unexplored. In this work, we
introduce a new framework, E5-V, designed to adapt MLLMs for achieving
universal multimodal embeddings. Our findings highlight the significant
potential of MLLMs in representing multimodal inputs compared to previous
approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the
modality gap between different types of inputs, demonstrating strong
performance in multimodal embeddings even without fine-tuning. We propose a
single modality training approach for E5-V, where the model is trained
exclusively on text pairs. This method demonstrates significant improvements
over traditional multimodal training on image-text pairs, while reducing
training costs by approximately 95%. Additionally, this approach eliminates the
need for costly multimodal training data collection. Extensive experiments
across four types of tasks demonstrate the effectiveness of E5-V. As a
universal multimodal model, E5-V not only achieves but often surpasses
state-of-the-art performance in each task, despite being trained on a single
modality.