UniME-V2: 범용 멀티모달 임베딩 학습을 위한 MLLM-as-a-Judge
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
저자: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
초록
범용 멀티모달 임베딩 모델은 다양한 작업의 기반이 됩니다. 기존 접근 방식은 일반적으로 쿼리-후보 쌍의 유사성을 측정하여 배치 내 네거티브 마이닝을 수행합니다. 그러나 이러한 방법들은 후보들 간의 미묘한 의미적 차이를 포착하는 데 어려움을 겪으며, 네거티브 샘플의 다양성이 부족합니다. 또한, 이러한 임베딩은 거짓 네거티브와 하드 네거티브를 구분하는 데 있어 제한된 식별 능력을 보입니다. 본 논문에서는 MLLM(Multimodal Large Language Model)의 고급 이해 능력을 활용하여 표현 학습을 강화하고, 새로운 범용 멀티모달 임베딩 모델(UniME-V2)을 제안합니다. 우리의 접근 방식은 먼저 글로벌 검색을 통해 잠재적 하드 네거티브 집합을 구성합니다. 그런 다음 MLLM-as-a-Judge 메커니즘을 도입하여 MLLM을 활용해 쿼리-후보 쌍의 의미적 정렬을 평가하고 소프트 의미 매칭 점수를 생성합니다. 이러한 점수는 하드 네거티브 마이닝의 기초로 사용되어 거짓 네거티브의 영향을 완화하고 다양하고 고품질의 하드 네거티브를 식별할 수 있게 합니다. 또한, 소프트 의미 매칭 점수는 소프트 레이블로 사용되어 엄격한 일대일 매핑 제약을 완화합니다. 유사성 행렬을 소프트 의미 매칭 점수 행렬과 정렬함으로써, 모델은 후보들 간의 의미적 차이를 학습하여 식별 능력을 크게 향상시킵니다. 성능을 더욱 개선하기 위해, 우리는 UniME-V2-Reranker를 제안합니다. 이 리랭커 모델은 조인트 페어와이즈 및 리스트와이즈 최적화 접근 방식을 통해 마이닝된 하드 네거티브를 사용하여 훈련됩니다. MMEB 벤치마크와 여러 검색 작업에 대한 포괄적인 실험을 수행하여, 우리의 방법이 모든 작업에서 평균적으로 최첨단 성능을 달성함을 입증합니다.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.