UniME-V2: ユニバーサルマルチモーダル埋め込み学習のためのMLLM-as-a-Judge
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
著者: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
要旨
ユニバーサルマルチモーダル埋め込みモデルは、さまざまなタスクの基盤となるものである。既存のアプローチでは、通常、クエリと候補のペアの類似度を測定することで、バッチ内のネガティブマイニングを行う。しかし、これらの手法は、候補間の微妙な意味的差異を捉えることが難しく、ネガティブサンプルの多様性に欠けることが多い。さらに、埋め込みは、偽のネガティブやハードネガティブを区別するための識別能力が限られている。本論文では、MLLM(マルチモーダル言語モデル)の高度な理解能力を活用して表現学習を強化し、新たなユニバーサルマルチモーダル埋め込みモデル(UniME-V2)を提案する。我々のアプローチでは、まずグローバル検索を通じて潜在的なハードネガティブセットを構築する。次に、MLLM-as-a-Judgeメカニズムを導入し、MLLMを用いてクエリと候補のペアの意味的整合性を評価し、ソフトな意味的マッチングスコアを生成する。これらのスコアは、ハードネガティブマイニングの基盤として機能し、偽のネガティブの影響を軽減し、多様で高品質なハードネガティブの識別を可能にする。さらに、意味的マッチングスコアは、ソフトラベルとして使用され、厳密な1対1マッピングの制約を緩和する。類似度行列とソフトな意味的マッチングスコア行列を整合させることで、モデルは候補間の意味的差異を学習し、その識別能力を大幅に向上させる。さらに、性能を向上させるために、UniME-V2-Rerankerを提案する。これは、我々がマイニングしたハードネガティブに対して、ペアワイズおよびリストワイズの最適化アプローチを組み合わせて訓練したリランキングモデルである。MMEBベンチマークおよび複数の検索タスクにおいて包括的な実験を行い、我々の手法が全てのタスクにおいて平均的に最先端の性能を達成することを示す。
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.