UniME-V2: MLLM-как-судья для универсального обучения мультимодальных эмбеддингов
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
Авторы: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
Аннотация
Универсальные мультимодальные модели эмбеддингов являются основой для решения различных задач. Существующие подходы обычно используют внутрибатчевое негативное майнинг, измеряя сходство пар запрос-кандидат. Однако эти методы часто не способны уловить тонкие семантические различия между кандидатами и страдают от недостатка разнообразия в негативных примерах. Кроме того, эмбеддинги демонстрируют ограниченную способность различать ложные и сложные негативные примеры. В данной работе мы используем расширенные возможности понимания MLLM (многоязыковых языковых моделей) для улучшения обучения представлений и представляем новую модель Universal Multimodal Embedding (UniME-V2). Наш подход сначала строит набор потенциальных сложных негативных примеров через глобальный поиск. Затем мы вводим механизм MLLM-as-a-Judge, который использует MLLM для оценки семантического соответствия пар запрос-кандидат и генерации мягких семантических оценок соответствия. Эти оценки служат основой для майнинга сложных негативных примеров, смягчая влияние ложных негативов и позволяя идентифицировать разнообразные, высококачественные сложные негативные примеры. Кроме того, семантические оценки соответствия используются как мягкие метки для смягчения жесткого ограничения однозначного соответствия. Выравнивая матрицу сходства с матрицей мягких семантических оценок соответствия, модель учится различать семантические различия между кандидатами, значительно повышая свою дискриминационную способность. Для дальнейшего улучшения производительности мы предлагаем UniME-V2-Reranker, модель ранжирования, обученную на наших сложных негативных примерах с использованием совместного попарного и спискового оптимизационного подхода. Мы проводим всесторонние эксперименты на бенчмарке MMEB и нескольких задачах поиска, демонстрируя, что наш метод достигает наилучших результатов в среднем по всем задачам.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.