LLaVE: Modelos de Incorporação de Linguagem e Visão em Grande Escala com Aprendizado Contrastivo Ponderado por Dificuldade
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning
March 4, 2025
Autores: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
Resumo
Modelos universais de incorporação multimodal desempenham um papel crucial em tarefas como recuperação intercalada de imagem-texto, RAG multimodal e agrupamento multimodal. No entanto, nossos resultados empíricos indicam que os modelos de incorporação baseados em LMM existentes, treinados com a função de perda InfoNCE padrão, exibem um alto grau de sobreposição na distribuição de similaridade entre pares positivos e negativos, tornando difícil distinguir efetivamente pares negativos desafiadores. Para lidar com esse problema, propomos uma estrutura simples, porém eficaz, que melhora dinamicamente o aprendizado de representação do modelo de incorporação para pares negativos com base em sua dificuldade discriminativa. Dentro dessa estrutura, treinamos uma série de modelos, denominados LLaVE, e os avaliamos no benchmark MMEB, que abrange 4 meta-tarefas e 36 conjuntos de dados. Os resultados experimentais mostram que o LLaVE estabelece bases mais sólidas, alcançando desempenho de última geração (SOTA) enquanto demonstra forte escalabilidade e eficiência. Especificamente, o LLaVE-2B supera os modelos SOTA anteriores de 7B, enquanto o LLaVE-7B alcança uma melhoria adicional de desempenho de 6,2 pontos. Embora o LLaVE seja treinado com dados de imagem-texto, ele pode generalizar para tarefas de recuperação de texto-vídeo de maneira zero-shot e alcançar um desempenho robusto, demonstrando seu notável potencial para transferência para outras tarefas de incorporação.
English
Universal multimodal embedding models play a critical role in tasks such as
interleaved image-text retrieval, multimodal RAG, and multimodal clustering.
However, our empirical results indicate that existing LMM-based embedding
models trained with the standard InfoNCE loss exhibit a high degree of overlap
in similarity distribution between positive and negative pairs, making it
challenging to distinguish hard negative pairs effectively. To deal with this
issue, we propose a simple yet effective framework that dynamically improves
the embedding model's representation learning for negative pairs based on their
discriminative difficulty. Within this framework, we train a series of models,
named LLaVE, and evaluate them on the MMEB benchmark, which covers 4 meta-tasks
and 36 datasets. Experimental results show that LLaVE establishes stronger
baselines that achieve state-of-the-art (SOTA) performance while demonstrating
strong scalability and efficiency. Specifically, LLaVE-2B surpasses the
previous SOTA 7B models, while LLaVE-7B achieves a further performance
improvement of 6.2 points. Although LLaVE is trained on image-text data, it can
generalize to text-video retrieval tasks in a zero-shot manner and achieve
strong performance, demonstrating its remarkable potential for transfer to
other embedding tasks.Summary
AI-Generated Summary