LLaVE: Grote Taal- en Visie-Embeddingmodellen met Hardheidsgewogen Contrastief Leren
LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning
March 4, 2025
Auteurs: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI
Samenvatting
Universele multimodale embeddingmodellen spelen een cruciale rol in taken zoals
geïnterleefde beeld-tekst retrieval, multimodale RAG en multimodale clustering.
Onze empirische resultaten tonen echter aan dat bestaande LMM-gebaseerde embeddingmodellen
die zijn getraind met het standaard InfoNCE-verlies een hoge mate van overlap vertonen
in de gelijkenisverdeling tussen positieve en negatieve paren, wat het effectief onderscheiden
van moeilijke negatieve paren bemoeilijkt. Om dit probleem aan te pakken, stellen we een eenvoudig
maar effectief raamwerk voor dat dynamisch de representatieleer van het embeddingmodel voor negatieve paren
verbetert op basis van hun onderscheidende moeilijkheidsgraad. Binnen dit raamwerk trainen we een reeks modellen,
genaamd LLaVE, en evalueren we deze op de MMEB-benchmark, die 4 meta-taken en 36 datasets omvat.
Experimentele resultaten laten zien dat LLaVE sterkere basislijnen vaststelt die state-of-the-art (SOTA) prestaties
bereiken, terwijl ze sterke schaalbaarheid en efficiëntie demonstreren. Specifiek overtreft LLaVE-2B de vorige
SOTA 7B-modellen, terwijl LLaVE-7B een verdere prestatieverbetering van 6,2 punten behaalt. Hoewel LLaVE is getraind
op beeld-tekst data, kan het generaliseren naar tekst-video retrieval taken op een zero-shot manier en sterke prestaties
leveren, wat zijn opmerkelijke potentieel voor overdracht naar andere embeddingtaken aantoont.
English
Universal multimodal embedding models play a critical role in tasks such as
interleaved image-text retrieval, multimodal RAG, and multimodal clustering.
However, our empirical results indicate that existing LMM-based embedding
models trained with the standard InfoNCE loss exhibit a high degree of overlap
in similarity distribution between positive and negative pairs, making it
challenging to distinguish hard negative pairs effectively. To deal with this
issue, we propose a simple yet effective framework that dynamically improves
the embedding model's representation learning for negative pairs based on their
discriminative difficulty. Within this framework, we train a series of models,
named LLaVE, and evaluate them on the MMEB benchmark, which covers 4 meta-tasks
and 36 datasets. Experimental results show that LLaVE establishes stronger
baselines that achieve state-of-the-art (SOTA) performance while demonstrating
strong scalability and efficiency. Specifically, LLaVE-2B surpasses the
previous SOTA 7B models, while LLaVE-7B achieves a further performance
improvement of 6.2 points. Although LLaVE is trained on image-text data, it can
generalize to text-video retrieval tasks in a zero-shot manner and achieve
strong performance, demonstrating its remarkable potential for transfer to
other embedding tasks.Summary
AI-Generated Summary