UniME-V2: MLLM-als-rechter voor universeel multimodaal inbeddingsleren
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
Auteurs: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
Samenvatting
Universele multimodale inbeddingsmodellen vormen de basis voor diverse taken.
Bestaande benaderingen maken doorgaans gebruik van in-batch negatieve mining door de
overeenkomst van query-kandidaatparen te meten. Deze methoden hebben echter vaak moeite
om subtiele semantische verschillen tussen kandidaten vast te leggen en vertonen een gebrek aan diversiteit in
negatieve voorbeelden. Bovendien tonen de inbeddingen een beperkt onderscheidend vermogen
bij het onderscheiden van valse en moeilijke negatieven. In dit artikel benutten we
de geavanceerde begripscapaciteiten van MLLM's om representatie-leren te verbeteren en presenteren we een nieuw Universeel Multimodaal Inbeddingsmodel (UniME-V2).
Onze aanpak construeert eerst een potentiële set van moeilijke negatieven via globale
retrieval. Vervolgens introduceren we het MLLM-as-a-Judge mechanisme, dat MLLM's gebruikt
om de semantische afstemming van query-kandidaatparen te beoordelen en zachte semantische overeenkomstsscores te genereren. Deze scores dienen als basis voor moeilijke negatieve mining, waardoor de impact van valse negatieven wordt verminderd en de identificatie van diverse, hoogwaardige moeilijke negatieven mogelijk wordt gemaakt. Bovendien worden de semantische overeenkomstsscores gebruikt als zachte labels om de rigide een-op-een mappingbeperking te verzachten. Door de overeenkomstmatrix af te stemmen op de zachte semantische overeenkomstsscorematrix, leert het model semantische onderscheidingen tussen kandidaten, wat het onderscheidend vermogen aanzienlijk verbetert. Om de prestaties verder te verbeteren, stellen we UniME-V2-Reranker voor, een herrangschikkingsmodel getraind op onze gedolven moeilijke negatieven via een gezamenlijke paarsgewijze en lijstgewijze optimalisatiebenadering. We voeren uitgebreide experimenten uit op de MMEB-benchmark en meerdere retrievalthaken, waaruit blijkt dat onze methode gemiddeld state-of-the-art prestaties behaalt voor alle taken.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.