Quebrando a Barreira da Modalidade: Aprendizado de Embeddings Universais com LLMs Multimodais
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
April 24, 2025
Autores: Tiancheng Gu, Kaicheng Yang, Ziyong Feng, Xingjun Wang, Yanzhao Zhang, Dingkun Long, Yingda Chen, Weidong Cai, Jiankang Deng
cs.AI
Resumo
O framework Contrastive Language-Image Pre-training (CLIP) tornou-se uma abordagem amplamente utilizada para o aprendizado de representações multimodais, particularmente em tarefas de recuperação e agrupamento de imagens e textos. No entanto, sua eficácia é limitada por três principais restrições: (1) truncamento de tokens de texto, (2) codificação isolada de imagem-texto e (3) composicionalidade deficiente devido ao comportamento de "bag-of-words". Embora os recentes Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham demonstrado avanços significativos na compreensão generalizada de visão e linguagem, seu potencial para aprender representações multimodais transferíveis ainda é pouco explorado. Neste trabalho, apresentamos o UniME (Universal Multimodal Embedding), um novo framework de duas etapas que aproveita os MLLMs para aprender representações discriminativas para diversas tarefas subsequentes. Na primeira etapa, realizamos a destilação de conhecimento discriminativo textual a partir de um modelo professor baseado em LLM poderoso, para aprimorar a capacidade de incorporação do componente de linguagem do MLLM. Na segunda etapa, introduzimos o ajuste de instrução com reforço de negativos difíceis para avançar ainda mais o aprendizado de representações discriminativas. Especificamente, inicialmente mitigamos a contaminação por falsos negativos e, em seguida, amostramos múltiplos negativos difíceis por instância dentro de cada lote, forçando o modelo a focar em amostras desafiadoras. Essa abordagem não apenas melhora o poder discriminativo, mas também aprimora a capacidade de seguir instruções em tarefas subsequentes. Realizamos experimentos extensivos no benchmark MMEB e em múltiplas tarefas de recuperação, incluindo recuperação de legendas curtas e longas e recuperação composicional. Os resultados demonstram que o UniME alcança melhorias consistentes de desempenho em todas as tarefas, exibindo capacidades discriminativas e composicionais superiores.
English
The Contrastive Language-Image Pre-training (CLIP) framework has become a
widely used approach for multimodal representation learning, particularly in
image-text retrieval and clustering. However, its efficacy is constrained by
three key limitations: (1) text token truncation, (2) isolated image-text
encoding, and (3) deficient compositionality due to bag-of-words behavior.
While recent Multimodal Large Language Models (MLLMs) have demonstrated
significant advances in generalized vision-language understanding, their
potential for learning transferable multimodal representations remains
underexplored.In this work, we present UniME (Universal Multimodal Embedding),
a novel two-stage framework that leverages MLLMs to learn discriminative
representations for diverse downstream tasks. In the first stage, we perform
textual discriminative knowledge distillation from a powerful LLM-based teacher
model to enhance the embedding capability of the MLLM\'s language component. In
the second stage, we introduce hard negative enhanced instruction tuning to
further advance discriminative representation learning. Specifically, we
initially mitigate false negative contamination and then sample multiple hard
negatives per instance within each batch, forcing the model to focus on
challenging samples. This approach not only improves discriminative power but
also enhances instruction-following ability in downstream tasks. We conduct
extensive experiments on the MMEB benchmark and multiple retrieval tasks,
including short and long caption retrieval and compositional retrieval. Results
demonstrate that UniME achieves consistent performance improvement across all
tasks, exhibiting superior discriminative and compositional capabilities.Summary
AI-Generated Summary