UniME-V2: MLLM-come-Giudice per l'Apprendimento di Embedding Multimodale Universale
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
Autori: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
Abstract
I modelli universali di embedding multimodale sono fondamentali per varie applicazioni. Gli approcci esistenti tipicamente impiegano il mining di negativi in batch misurando la similarità delle coppie query-candidato. Tuttavia, questi metodi spesso faticano a catturare le sottili differenze semantiche tra i candidati e mancano di diversità nei campioni negativi. Inoltre, gli embedding mostrano una capacità discriminativa limitata nel distinguere i falsi negativi e i negativi difficili. In questo articolo, sfruttiamo le avanzate capacità di comprensione dei MLLM per migliorare l'apprendimento delle rappresentazioni e presentiamo un nuovo modello di Universal Multimodal Embedding (UniME-V2). Il nostro approccio costruisce prima un insieme potenziale di negativi difficili attraverso il recupero globale. Introduciamo poi il meccanismo MLLM-as-a-Judge, che utilizza i MLLM per valutare l'allineamento semantico delle coppie query-candidato e generare punteggi di matching semantico soft. Questi punteggi servono come base per il mining di negativi difficili, mitigando l'impatto dei falsi negativi e consentendo l'identificazione di negativi difficili diversificati e di alta qualità. Inoltre, i punteggi di matching semantico sono utilizzati come etichette soft per mitigare il vincolo rigido di mappatura uno-a-uno. Allineando la matrice di similarità con la matrice dei punteggi di matching semantico soft, il modello apprende le distinzioni semantiche tra i candidati, migliorando significativamente la sua capacità discriminativa. Per ulteriormente migliorare le prestazioni, proponiamo UniME-V2-Reranker, un modello di reranking addestrato sui nostri negativi difficili estratti attraverso un approccio di ottimizzazione congiunta pairwise e listwise. Condurre esperimenti completi sul benchmark MMEB e su molteplici task di retrieval, dimostrando che il nostro metodo raggiunge prestazioni state-of-the-art in media su tutti i task.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.