UniME-V2 : MLLM-comme-juge pour l'apprentissage d'embeddings multimodaux universels
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
papers.authors: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
papers.abstract
Les modèles universels d'incorporation multimodale sont fondamentaux pour diverses tâches. Les approches existantes utilisent généralement l'exploitation de négatifs intra-lot en mesurant la similarité des paires requête-candidat. Cependant, ces méthodes peinent souvent à capturer les différences sémantiques subtiles entre les candidats et manquent de diversité dans les échantillons négatifs. De plus, les incorporations présentent une capacité discriminative limitée à distinguer les faux négatifs et les négatifs difficiles. Dans cet article, nous exploitons les capacités de compréhension avancées des MLLM (Modèles de Langage Multimodaux) pour améliorer l'apprentissage de représentations et présentons un nouveau modèle d'Incorporation Multimodale Universelle (UniME-V2). Notre approche construit d'abord un ensemble potentiel de négatifs difficiles par le biais d'une recherche globale. Nous introduisons ensuite le mécanisme MLLM-as-a-Judge, qui utilise les MLLM pour évaluer l'alignement sémantique des paires requête-candidat et générer des scores de correspondance sémantique doux. Ces scores servent de base pour l'exploitation de négatifs difficiles, atténuant l'impact des faux négatifs et permettant l'identification de négatifs difficiles diversifiés et de haute qualité. De plus, les scores de correspondance sémantique sont utilisés comme étiquettes douces pour atténuer la contrainte rigide de correspondance un-à-un. En alignant la matrice de similarité avec la matrice de scores de correspondance sémantique doux, le modèle apprend les distinctions sémantiques entre les candidats, améliorant significativement sa capacité discriminative. Pour améliorer encore les performances, nous proposons UniME-V2-Reranker, un modèle de reclassement entraîné sur nos négatifs difficiles extraits grâce à une approche d'optimisation conjointe par paires et par liste. Nous menons des expériences complètes sur le benchmark MMEB et plusieurs tâches de recherche, démontrant que notre méthode atteint des performances de pointe en moyenne sur toutes les tâches.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.