LLaVE: Modelos de Incorporação de Linguagem e Visão em Grande Escala com Aprendizado Contrastivo Ponderado por Dificuldade

Resumo

Modelos universais de incorporação multimodal desempenham um papel crucial em tarefas como recuperação intercalada de imagem-texto, RAG multimodal e agrupamento multimodal. No entanto, nossos resultados empíricos indicam que os modelos de incorporação baseados em LMM existentes, treinados com a função de perda InfoNCE padrão, exibem um alto grau de sobreposição na distribuição de similaridade entre pares positivos e negativos, tornando difícil distinguir efetivamente pares negativos desafiadores. Para lidar com esse problema, propomos uma estrutura simples, porém eficaz, que melhora dinamicamente o aprendizado de representação do modelo de incorporação para pares negativos com base em sua dificuldade discriminativa. Dentro dessa estrutura, treinamos uma série de modelos, denominados LLaVE, e os avaliamos no benchmark MMEB, que abrange 4 meta-tarefas e 36 conjuntos de dados. Os resultados experimentais mostram que o LLaVE estabelece bases mais sólidas, alcançando desempenho de última geração (SOTA) enquanto demonstra forte escalabilidade e eficiência. Especificamente, o LLaVE-2B supera os modelos SOTA anteriores de 7B, enquanto o LLaVE-7B alcança uma melhoria adicional de desempenho de 6,2 pontos. Embora o LLaVE seja treinado com dados de imagem-texto, ele pode generalizar para tarefas de recuperação de texto-vídeo de maneira zero-shot e alcançar um desempenho robusto, demonstrando seu notável potencial para transferência para outras tarefas de incorporação.

English

Universal multimodal embedding models play a critical role in tasks such as interleaved image-text retrieval, multimodal RAG, and multimodal clustering. However, our empirical results indicate that existing LMM-based embedding models trained with the standard InfoNCE loss exhibit a high degree of overlap in similarity distribution between positive and negative pairs, making it challenging to distinguish hard negative pairs effectively. To deal with this issue, we propose a simple yet effective framework that dynamically improves the embedding model's representation learning for negative pairs based on their discriminative difficulty. Within this framework, we train a series of models, named LLaVE, and evaluate them on the MMEB benchmark, which covers 4 meta-tasks and 36 datasets. Experimental results show that LLaVE establishes stronger baselines that achieve state-of-the-art (SOTA) performance while demonstrating strong scalability and efficiency. Specifically, LLaVE-2B surpasses the previous SOTA 7B models, while LLaVE-7B achieves a further performance improvement of 6.2 points. Although LLaVE is trained on image-text data, it can generalize to text-video retrieval tasks in a zero-shot manner and achieve strong performance, demonstrating its remarkable potential for transfer to other embedding tasks.

LLaVE: Modelos de Incorporação de Linguagem e Visão em Grande Escala com Aprendizado Contrastivo Ponderado por Dificuldade

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Resumo

Summary

Support

Support