ChatPaper.aiChatPaper

E5-V: Embedding Universali con Modelli Linguistici Multimodali di Grande Scala

E5-V: Universal Embeddings with Multimodal Large Language Models

July 17, 2024
Autori: Ting Jiang, Minghui Song, Zihan Zhang, Haizhen Huang, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
cs.AI

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno mostrato progressi promettenti nella comprensione generale di immagini e linguaggio. Tuttavia, la rappresentazione delle informazioni multimodali utilizzando MLLMs rimane in gran parte inesplorata. In questo lavoro, introduciamo un nuovo framework, E5-V, progettato per adattare gli MLLMs al fine di ottenere embedding multimodali universali. I nostri risultati evidenziano il significativo potenziale degli MLLMs nel rappresentare input multimodali rispetto agli approcci precedenti. Sfruttando gli MLLMs con prompt, E5-V colma efficacemente il divario tra le modalità di diversi tipi di input, dimostrando prestazioni solide negli embedding multimodali anche senza fine-tuning. Proponiamo un approccio di addestramento a singola modalità per E5-V, in cui il modello viene addestrato esclusivamente su coppie di testo. Questo metodo dimostra miglioramenti significativi rispetto all'addestramento multimodale tradizionale su coppie immagine-testo, riducendo i costi di addestramento di circa il 95%. Inoltre, questo approccio elimina la necessità di raccogliere costosi dati di addestramento multimodale. Esperimenti estesi su quattro tipi di task dimostrano l'efficacia di E5-V. Come modello multimodale universale, E5-V non solo raggiunge ma spesso supera le prestazioni state-of-the-art in ciascun task, nonostante sia stato addestrato su una singola modalità.
English
Multimodal large language models (MLLMs) have shown promising advancements in general visual and language understanding. However, the representation of multimodal information using MLLMs remains largely unexplored. In this work, we introduce a new framework, E5-V, designed to adapt MLLMs for achieving universal multimodal embeddings. Our findings highlight the significant potential of MLLMs in representing multimodal inputs compared to previous approaches. By leveraging MLLMs with prompts, E5-V effectively bridges the modality gap between different types of inputs, demonstrating strong performance in multimodal embeddings even without fine-tuning. We propose a single modality training approach for E5-V, where the model is trained exclusively on text pairs. This method demonstrates significant improvements over traditional multimodal training on image-text pairs, while reducing training costs by approximately 95%. Additionally, this approach eliminates the need for costly multimodal training data collection. Extensive experiments across four types of tasks demonstrate the effectiveness of E5-V. As a universal multimodal model, E5-V not only achieves but often surpasses state-of-the-art performance in each task, despite being trained on a single modality.
PDF413November 28, 2024