ChatPaper.aiChatPaper

UniME-V2: 범용 멀티모달 임베딩 학습을 위한 MLLM-as-a-Judge

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

October 15, 2025
저자: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI

초록

범용 멀티모달 임베딩 모델은 다양한 작업의 기반이 됩니다. 기존 접근 방식은 일반적으로 쿼리-후보 쌍의 유사성을 측정하여 배치 내 네거티브 마이닝을 수행합니다. 그러나 이러한 방법들은 후보들 간의 미묘한 의미적 차이를 포착하는 데 어려움을 겪으며, 네거티브 샘플의 다양성이 부족합니다. 또한, 이러한 임베딩은 거짓 네거티브와 하드 네거티브를 구분하는 데 있어 제한된 식별 능력을 보입니다. 본 논문에서는 MLLM(Multimodal Large Language Model)의 고급 이해 능력을 활용하여 표현 학습을 강화하고, 새로운 범용 멀티모달 임베딩 모델(UniME-V2)을 제안합니다. 우리의 접근 방식은 먼저 글로벌 검색을 통해 잠재적 하드 네거티브 집합을 구성합니다. 그런 다음 MLLM-as-a-Judge 메커니즘을 도입하여 MLLM을 활용해 쿼리-후보 쌍의 의미적 정렬을 평가하고 소프트 의미 매칭 점수를 생성합니다. 이러한 점수는 하드 네거티브 마이닝의 기초로 사용되어 거짓 네거티브의 영향을 완화하고 다양하고 고품질의 하드 네거티브를 식별할 수 있게 합니다. 또한, 소프트 의미 매칭 점수는 소프트 레이블로 사용되어 엄격한 일대일 매핑 제약을 완화합니다. 유사성 행렬을 소프트 의미 매칭 점수 행렬과 정렬함으로써, 모델은 후보들 간의 의미적 차이를 학습하여 식별 능력을 크게 향상시킵니다. 성능을 더욱 개선하기 위해, 우리는 UniME-V2-Reranker를 제안합니다. 이 리랭커 모델은 조인트 페어와이즈 및 리스트와이즈 최적화 접근 방식을 통해 마이닝된 하드 네거티브를 사용하여 훈련됩니다. MMEB 벤치마크와 여러 검색 작업에 대한 포괄적인 실험을 수행하여, 우리의 방법이 모든 작업에서 평균적으로 최첨단 성능을 달성함을 입증합니다.
English
Universal multimodal embedding models are foundational to various tasks. Existing approaches typically employ in-batch negative mining by measuring the similarity of query-candidate pairs. However, these methods often struggle to capture subtle semantic differences among candidates and lack diversity in negative samples. Moreover, the embeddings exhibit limited discriminative ability in distinguishing false and hard negatives. In this paper, we leverage the advanced understanding capabilities of MLLMs to enhance representation learning and present a novel Universal Multimodal Embedding (UniME-V2) model. Our approach first constructs a potential hard negative set through global retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes MLLMs to assess the semantic alignment of query-candidate pairs and generate soft semantic matching scores. These scores serve as a foundation for hard negative mining, mitigating the impact of false negatives and enabling the identification of diverse, high-quality hard negatives. Furthermore, the semantic matching scores are used as soft labels to mitigate the rigid one-to-one mapping constraint. By aligning the similarity matrix with the soft semantic matching score matrix, the model learns semantic distinctions among candidates, significantly enhancing its discriminative capacity. To further improve performance, we propose UniME-V2-Reranker, a reranking model trained on our mined hard negatives through a joint pairwise and listwise optimization approach. We conduct comprehensive experiments on the MMEB benchmark and multiple retrieval tasks, demonstrating that our method achieves state-of-the-art performance on average across all tasks.
PDF112October 16, 2025