Superare la Barriera della Modalità: Apprendimento Universale di Embedding con Modelli Linguistici Multimodali
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
April 24, 2025
Autori: Tiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng
cs.AI
Abstract
Il framework Contrastive Language-Image Pre-training (CLIP) è diventato un approccio ampiamente utilizzato per l'apprendimento di rappresentazioni multimodali, in particolare nel recupero e clustering di immagini e testi. Tuttavia, la sua efficacia è limitata da tre principali criticità: (1) troncamento dei token testuali, (2) codifica isolata di immagini e testi, e (3) carenza di composizionalità dovuta a un comportamento di tipo "bag-of-words". Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) abbiano dimostrato significativi progressi nella comprensione generalizzata di visione e linguaggio, il loro potenziale per l'apprendimento di rappresentazioni multimodali trasferibili rimane ancora poco esplorato. In questo lavoro, presentiamo UniME (Universal Multimodal Embedding), un innovativo framework a due stadi che sfrutta gli MLLMs per apprendere rappresentazioni discriminative per una varietà di task downstream. Nella prima fase, eseguiamo una distillazione di conoscenza discriminativa testuale da un potente modello insegnante basato su LLM per potenziare la capacità di embedding del componente linguistico dell'MLLM. Nella seconda fase, introduciamo un'ottimizzazione delle istruzioni potenziata con negativi difficili per ulteriormente avanzare l'apprendimento di rappresentazioni discriminative. Nello specifico, inizialmente mitigiamo la contaminazione da falsi negativi e poi campioniamo più negativi difficili per ogni istanza all'interno di ciascun batch, costringendo il modello a concentrarsi su campioni complessi. Questo approccio non solo migliora il potere discriminativo, ma potenzia anche la capacità di seguire le istruzioni nei task downstream. Abbiamo condotto esperimenti estensivi sul benchmark MMEB e su molteplici task di recupero, inclusi il recupero di didascalie brevi e lunghe e il recupero composizionale. I risultati dimostrano che UniME ottiene un miglioramento delle prestazioni coerente in tutti i task, mostrando capacità discriminative e composizionali superiori.
English
The Contrastive Language-Image Pre-training (CLIP) framework has become a
widely used approach for multimodal representation learning, particularly in
image-text retrieval and clustering. However, its efficacy is constrained by
three key limitations: (1) text token truncation, (2) isolated image-text
encoding, and (3) deficient compositionality due to bag-of-words behavior.
While recent Multimodal Large Language Models (MLLMs) have demonstrated
significant advances in generalized vision-language understanding, their
potential for learning transferable multimodal representations remains
underexplored.In this work, we present UniME (Universal Multimodal Embedding),
a novel two-stage framework that leverages MLLMs to learn discriminative
representations for diverse downstream tasks. In the first stage, we perform
textual discriminative knowledge distillation from a powerful LLM-based teacher
model to enhance the embedding capability of the MLLM\'s language component. In
the second stage, we introduce hard negative enhanced instruction tuning to
further advance discriminative representation learning. Specifically, we
initially mitigate false negative contamination and then sample multiple hard
negatives per instance within each batch, forcing the model to focus on
challenging samples. This approach not only improves discriminative power but
also enhances instruction-following ability in downstream tasks. We conduct
extensive experiments on the MMEB benchmark and multiple retrieval tasks,
including short and long caption retrieval and compositional retrieval. Results
demonstrate that UniME achieves consistent performance improvement across all
tasks, exhibiting superior discriminative and compositional capabilities.Summary
AI-Generated Summary