Rompiendo la Barrera de la Modalidad: Aprendizaje de Incrustaciones Universales con LLMs Multimodales
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
April 24, 2025
Autores: Tiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng
cs.AI
Resumen
El marco de preentrenamiento de lenguaje-imagen contrastivo (CLIP) se ha convertido en un enfoque ampliamente utilizado para el aprendizaje de representaciones multimodales, particularmente en la recuperación y agrupación de imágenes y texto. Sin embargo, su eficacia está limitada por tres aspectos clave: (1) truncamiento de tokens de texto, (2) codificación aislada de imágenes y texto, y (3) composicionalidad deficiente debido al comportamiento de bolsa de palabras. Aunque los modelos de lenguaje multimodal de gran escala (MLLMs) recientes han demostrado avances significativos en la comprensión generalizada de visión y lenguaje, su potencial para aprender representaciones multimodales transferibles sigue siendo poco explorado. En este trabajo, presentamos UniME (Universal Multimodal Embedding), un marco novedoso de dos etapas que aprovecha los MLLMs para aprender representaciones discriminativas para diversas tareas posteriores. En la primera etapa, realizamos una destilación de conocimiento discriminativo textual a partir de un modelo maestro basado en un LLM potente para mejorar la capacidad de incrustación del componente de lenguaje del MLLM. En la segunda etapa, introducimos una sintonización de instrucciones mejorada con negativos difíciles para avanzar aún más en el aprendizaje de representaciones discriminativas. Específicamente, primero mitigamos la contaminación por falsos negativos y luego muestreamos múltiples negativos difíciles por instancia dentro de cada lote, forzando al modelo a centrarse en muestras desafiantes. Este enfoque no solo mejora el poder discriminativo, sino que también aumenta la capacidad de seguir instrucciones en tareas posteriores. Realizamos experimentos extensos en el benchmark MMEB y múltiples tareas de recuperación, incluyendo la recuperación de descripciones cortas y largas, así como la recuperación composicional. Los resultados demuestran que UniME logra una mejora consistente en el rendimiento en todas las tareas, exhibiendo capacidades discriminativas y composicionales superiores.
English
The Contrastive Language-Image Pre-training (CLIP) framework has become a
widely used approach for multimodal representation learning, particularly in
image-text retrieval and clustering. However, its efficacy is constrained by
three key limitations: (1) text token truncation, (2) isolated image-text
encoding, and (3) deficient compositionality due to bag-of-words behavior.
While recent Multimodal Large Language Models (MLLMs) have demonstrated
significant advances in generalized vision-language understanding, their
potential for learning transferable multimodal representations remains
underexplored.In this work, we present UniME (Universal Multimodal Embedding),
a novel two-stage framework that leverages MLLMs to learn discriminative
representations for diverse downstream tasks. In the first stage, we perform
textual discriminative knowledge distillation from a powerful LLM-based teacher
model to enhance the embedding capability of the MLLM\'s language component. In
the second stage, we introduce hard negative enhanced instruction tuning to
further advance discriminative representation learning. Specifically, we
initially mitigate false negative contamination and then sample multiple hard
negatives per instance within each batch, forcing the model to focus on
challenging samples. This approach not only improves discriminative power but
also enhances instruction-following ability in downstream tasks. We conduct
extensive experiments on the MMEB benchmark and multiple retrieval tasks,
including short and long caption retrieval and compositional retrieval. Results
demonstrate that UniME achieves consistent performance improvement across all
tasks, exhibiting superior discriminative and compositional capabilities.Summary
AI-Generated Summary