Discriminatieve Fijnafstemming van LVLM's
Discriminative Fine-tuning of LVLMs
December 5, 2024
Auteurs: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Samenvatting
Contrastief getrainde Vision-Language Modellen (VLM's) zoals CLIP zijn de facto benadering geworden voor discriminatieve visie-taal representatie-leren. Echter, deze modellen hebben beperkt begrip van taal, waarbij ze vaak een "zak van woorden"-gedrag vertonen. Tegelijkertijd zijn Grote Vision-Language Modellen (LVLM's), die visie-encoders combineren met LLM's, in staat gebleken gedetailleerde visie-taal redenering uit te voeren, maar hun autoregressieve aard maakt ze minder geschikt voor discriminatieve taken.
In dit werk stellen we voor om "het beste van beide werelden" te combineren: een nieuwe trainingsbenadering voor discriminatieve fine-tuning van LVLM's die resulteert in sterke discriminatieve en compositionele mogelijkheden. We zetten in feite een generatief LVLM om in een discriminatief model, waardoor de mogelijkheid voor krachtige beeld-tekst discriminatie gecombineerd met verbeterd taalbegrip wordt ontsloten.
Onze bijdragen omvatten: (1) Een zorgvuldig ontworpen trainings/optimalisatiekader dat gebruikmaakt van beeld-tekst paren van variabele lengte en granulariteit voor het trainen van het model met zowel contrastieve als volgende-token voorspellingsverliezen. Dit wordt ondersteund door ablatie studies die de noodzaak van de componenten van ons kader rechtvaardigen. (2) Een parameter-efficiënte aanpassingsmethode met behulp van een combinatie van zachte aanmoediging en LoRA-adapters. (3) Aanzienlijke verbeteringen ten opzichte van state-of-the-art CLIP-achtige modellen van vergelijkbare grootte, inclusief standaard beeld-tekst ophaalbenchmarks en opmerkelijke winsten in compositionele aspecten.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the
de facto approach for discriminative vision-language representation learning.
However, these models have limited language understanding, often exhibiting a
"bag of words" behavior. At the same time, Large Vision-Language Models
(LVLMs), which combine vision encoders with LLMs, have been shown capable of
detailed vision-language reasoning, yet their autoregressive nature renders
them less suitable for discriminative tasks.
In this work, we propose to combine "the best of both worlds": a new training
approach for discriminative fine-tuning of LVLMs that results in strong
discriminative and compositional capabilities. Essentially, our approach
converts a generative LVLM into a discriminative one, unlocking its capability
for powerful image-text discrimination combined with enhanced language
understanding.
Our contributions include: (1) A carefully designed training/optimization
framework that utilizes image-text pairs of variable length and granularity for
training the model with both contrastive and next-token prediction losses. This
is accompanied by ablation studies that justify the necessity of our
framework's components. (2) A parameter-efficient adaptation method using a
combination of soft prompting and LoRA adapters. (3) Significant improvements
over state-of-the-art CLIP-like models of similar size, including standard
image-text retrieval benchmarks and notable gains in compositionality.