UniME-V2: MLLM-como-Juiz para Aprendizado Universal de Embeddings Multimodais
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
Autores: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
Resumo
Modelos universais de incorporação multimodal são fundamentais para diversas tarefas. As abordagens existentes geralmente empregam mineração de negativos em lote medindo a similaridade de pares consulta-candidato. No entanto, esses métodos frequentemente têm dificuldade em capturar diferenças semânticas sutis entre os candidatos e carecem de diversidade nas amostras negativas. Além disso, as incorporações exibem capacidade discriminativa limitada para distinguir falsos negativos e negativos difíceis. Neste artigo, aproveitamos as capacidades avançadas de compreensão dos MLLMs para aprimorar o aprendizado de representação e apresentamos um novo modelo de Incorporação Multimodal Universal (UniME-V2). Nossa abordagem primeiro constrói um conjunto potencial de negativos difíceis por meio de recuperação global. Em seguida, introduzimos o mecanismo MLLM-as-a-Judge, que utiliza MLLMs para avaliar o alinhamento semântico de pares consulta-candidato e gerar pontuações de correspondência semântica suave. Essas pontuações servem como base para a mineração de negativos difíceis, mitigando o impacto de falsos negativos e permitindo a identificação de negativos difíceis diversos e de alta qualidade. Além disso, as pontuações de correspondência semântica são usadas como rótulos suaves para mitigar a restrição rígida de mapeamento um-para-um. Ao alinhar a matriz de similaridade com a matriz de pontuação de correspondência semântica suave, o modelo aprende distinções semânticas entre os candidatos, melhorando significativamente sua capacidade discriminativa. Para aprimorar ainda mais o desempenho, propomos o UniME-V2-Reranker, um modelo de reranking treinado em nossos negativos difíceis minerados por meio de uma abordagem de otimização conjunta pareada e baseada em lista. Realizamos experimentos abrangentes no benchmark MMEB e em várias tarefas de recuperação, demonstrando que nosso método alcança desempenho de ponta em média em todas as tarefas.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.