UniME-V2: MLLM-als-Richter für universelles multimodales Embedding-Lernen
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
papers.authors: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
papers.abstract
Universelle multimodale Einbettungsmodelle sind grundlegend für verschiedene Aufgaben. Bestehende Ansätze verwenden typischerweise In-Batch-Negative-Mining durch die Messung der Ähnlichkeit von Anfrage-Kandidat-Paaren. Diese Methoden haben jedoch oft Schwierigkeiten, subtile semantische Unterschiede zwischen den Kandidaten zu erfassen, und weisen eine mangelnde Diversität in den negativen Stichproben auf. Darüber hinaus zeigen die Einbettungen eine begrenzte Fähigkeit, falsche und schwierige Negative zu unterscheiden. In diesem Artikel nutzen wir die fortgeschrittenen Verständnisfähigkeiten von MLLMs, um das Repräsentationslernen zu verbessern, und präsentieren ein neuartiges Universal Multimodal Embedding (UniME-V2) Modell. Unser Ansatz konstruiert zunächst einen potenziellen Satz schwieriger Negative durch globale Retrieval. Anschließend führen wir den MLLM-as-a-Judge-Mechanismus ein, der MLLMs nutzt, um die semantische Ausrichtung von Anfrage-Kandidat-Paaren zu bewerten und weiche semantische Übereinstimmungswerte zu generieren. Diese Werte dienen als Grundlage für das Mining schwieriger Negative, mildern die Auswirkungen falscher Negative und ermöglichen die Identifizierung diverser, hochwertiger schwieriger Negative. Darüber hinaus werden die semantischen Übereinstimmungswerte als weiche Labels verwendet, um die starre Eins-zu-eins-Zuordnungsbeschränkung zu mildern. Durch die Ausrichtung der Ähnlichkeitsmatrix an der Matrix der weichen semantischen Übereinstimmungswerte lernt das Modell semantische Unterscheidungen zwischen den Kandidaten, was seine diskriminative Fähigkeit erheblich verbessert. Um die Leistung weiter zu steigern, schlagen wir UniME-V2-Reranker vor, ein Reranking-Modell, das auf unseren geminten schwierigen Negativen durch einen gemeinsamen paarweisen und listenweisen Optimierungsansatz trainiert wird. Wir führen umfassende Experimente auf dem MMEB-Benchmark und mehreren Retrieval-Aufgaben durch und zeigen, dass unsere Methode durchschnittlich in allen Aufgaben state-of-the-art Leistung erzielt.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.