ChatPaper.aiChatPaper

LLaVE: Grote Taal- en Visie-Embeddingmodellen met Hardheidsgewogen Contrastief Leren

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

March 4, 2025
Auteurs: Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su
cs.AI

Samenvatting

Universele multimodale embeddingmodellen spelen een cruciale rol in taken zoals geïnterleefde beeld-tekst retrieval, multimodale RAG en multimodale clustering. Onze empirische resultaten tonen echter aan dat bestaande LMM-gebaseerde embeddingmodellen die zijn getraind met het standaard InfoNCE-verlies een hoge mate van overlap vertonen in de gelijkenisverdeling tussen positieve en negatieve paren, wat het effectief onderscheiden van moeilijke negatieve paren bemoeilijkt. Om dit probleem aan te pakken, stellen we een eenvoudig maar effectief raamwerk voor dat dynamisch de representatieleer van het embeddingmodel voor negatieve paren verbetert op basis van hun onderscheidende moeilijkheidsgraad. Binnen dit raamwerk trainen we een reeks modellen, genaamd LLaVE, en evalueren we deze op de MMEB-benchmark, die 4 meta-taken en 36 datasets omvat. Experimentele resultaten laten zien dat LLaVE sterkere basislijnen vaststelt die state-of-the-art (SOTA) prestaties bereiken, terwijl ze sterke schaalbaarheid en efficiëntie demonstreren. Specifiek overtreft LLaVE-2B de vorige SOTA 7B-modellen, terwijl LLaVE-7B een verdere prestatieverbetering van 6,2 punten behaalt. Hoewel LLaVE is getraind op beeld-tekst data, kan het generaliseren naar tekst-video retrieval taken op een zero-shot manier en sterke prestaties leveren, wat zijn opmerkelijke potentieel voor overdracht naar andere embeddingtaken aantoont.
English
Universal multimodal embedding models play a critical role in tasks such as interleaved image-text retrieval, multimodal RAG, and multimodal clustering. However, our empirical results indicate that existing LMM-based embedding models trained with the standard InfoNCE loss exhibit a high degree of overlap in similarity distribution between positive and negative pairs, making it challenging to distinguish hard negative pairs effectively. To deal with this issue, we propose a simple yet effective framework that dynamically improves the embedding model's representation learning for negative pairs based on their discriminative difficulty. Within this framework, we train a series of models, named LLaVE, and evaluate them on the MMEB benchmark, which covers 4 meta-tasks and 36 datasets. Experimental results show that LLaVE establishes stronger baselines that achieve state-of-the-art (SOTA) performance while demonstrating strong scalability and efficiency. Specifically, LLaVE-2B surpasses the previous SOTA 7B models, while LLaVE-7B achieves a further performance improvement of 6.2 points. Although LLaVE is trained on image-text data, it can generalize to text-video retrieval tasks in a zero-shot manner and achieve strong performance, demonstrating its remarkable potential for transfer to other embedding tasks.

Summary

AI-Generated Summary

PDF143March 11, 2025