UniME-V2: MLLM-como-Juez para el Aprendizaje Universal de Incrustaciones Multimodales
UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
October 15, 2025
Autores: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing
cs.AI
Resumen
Los modelos universales de incrustación multimodal son fundamentales para diversas tareas. Los enfoques existentes suelen emplear la minería de negativos dentro del lote mediante la medición de la similitud de pares consulta-candidato. Sin embargo, estos métodos a menudo tienen dificultades para capturar diferencias semánticas sutiles entre los candidatos y carecen de diversidad en las muestras negativas. Además, las incrustaciones muestran una capacidad discriminativa limitada para distinguir negativos falsos y difíciles. En este artículo, aprovechamos las capacidades avanzadas de comprensión de los MLLM para mejorar el aprendizaje de representaciones y presentamos un nuevo modelo de Incrustación Multimodal Universal (UniME-V2). Nuestro enfoque primero construye un conjunto potencial de negativos difíciles mediante recuperación global. Luego, introducimos el mecanismo MLLM-como-Juez, que utiliza MLLM para evaluar la alineación semántica de los pares consulta-candidato y generar puntuaciones de coincidencia semántica suave. Estas puntuaciones sirven como base para la minería de negativos difíciles, mitigando el impacto de los negativos falsos y permitiendo la identificación de negativos difíciles diversos y de alta calidad. Además, las puntuaciones de coincidencia semántica se utilizan como etiquetas suaves para mitigar la restricción rígida de mapeo uno a uno. Al alinear la matriz de similitud con la matriz de puntuaciones de coincidencia semántica suave, el modelo aprende distinciones semánticas entre los candidatos, mejorando significativamente su capacidad discriminativa. Para mejorar aún más el rendimiento, proponemos UniME-V2-Reranker, un modelo de reranking entrenado en nuestros negativos difíciles extraídos mediante un enfoque de optimización conjunta por pares y por lista. Realizamos experimentos exhaustivos en el benchmark MMEB y múltiples tareas de recuperación, demostrando que nuestro método alcanza un rendimiento de vanguardia en promedio en todas las tareas.
English
Universal multimodal embedding models are foundational to various tasks.
Existing approaches typically employ in-batch negative mining by measuring the
similarity of query-candidate pairs. However, these methods often struggle to
capture subtle semantic differences among candidates and lack diversity in
negative samples. Moreover, the embeddings exhibit limited discriminative
ability in distinguishing false and hard negatives. In this paper, we leverage
the advanced understanding capabilities of MLLMs to enhance representation
learning and present a novel Universal Multimodal Embedding (UniME-V2) model.
Our approach first constructs a potential hard negative set through global
retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes
MLLMs to assess the semantic alignment of query-candidate pairs and generate
soft semantic matching scores. These scores serve as a foundation for hard
negative mining, mitigating the impact of false negatives and enabling the
identification of diverse, high-quality hard negatives. Furthermore, the
semantic matching scores are used as soft labels to mitigate the rigid
one-to-one mapping constraint. By aligning the similarity matrix with the soft
semantic matching score matrix, the model learns semantic distinctions among
candidates, significantly enhancing its discriminative capacity. To further
improve performance, we propose UniME-V2-Reranker, a reranking model trained on
our mined hard negatives through a joint pairwise and listwise optimization
approach. We conduct comprehensive experiments on the MMEB benchmark and
multiple retrieval tasks, demonstrating that our method achieves
state-of-the-art performance on average across all tasks.