Raffinamento discriminativo di LVLMs

Discriminative Fine-tuning of LVLMs

December 5, 2024
Autori: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Abstract

I Modelli Visione-Linguaggio addestrati in maniera contrastiva (VLM) come CLIP sono diventati l'approccio predefinito per l'apprendimento delle rappresentazioni visione-linguaggio discriminative. Tuttavia, questi modelli hanno una limitata comprensione del linguaggio, mostrando spesso un comportamento "bag of words". Allo stesso tempo, i Grandi Modelli Visione-Linguaggio (LVLM), che combinano encoder di visione con LLM, hanno dimostrato di essere capaci di un ragionamento dettagliato visione-linguaggio, ma la loro natura autoregressiva li rende meno adatti per compiti discriminativi. In questo lavoro, proponiamo di combinare "il meglio di entrambi i mondi": un nuovo approccio di addestramento per il fine-tuning discriminativo dei LVLM che porta a forti capacità discriminative e compositive. Fondamentalmente, il nostro approccio converte un LVLM generativo in uno discriminativo, sbloccando la sua capacità di potente discriminazione immagine-testo combinata con una comprensione linguistica migliorata. I nostri contributi includono: (1) Un framework di addestramento/ottimizzazione attentamente progettato che utilizza coppie immagine-testo di lunghezza e granularità variabili per addestrare il modello con perdite di previsione contrastiva e di token successivo. Ciò è accompagnato da studi di ablation che giustificano la necessità dei componenti del nostro framework. (2) Un metodo di adattamento efficiente dei parametri che utilizza una combinazione di soft prompting e adattatori LoRA. (3) Miglioramenti significativi rispetto ai modelli simili a CLIP di ultima generazione delle stesse dimensioni, compresi benchmark standard di recupero immagine-testo e guadagni notevoli in termini di composizionalità.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the de facto approach for discriminative vision-language representation learning. However, these models have limited language understanding, often exhibiting a "bag of words" behavior. At the same time, Large Vision-Language Models (LVLMs), which combine vision encoders with LLMs, have been shown capable of detailed vision-language reasoning, yet their autoregressive nature renders them less suitable for discriminative tasks. In this work, we propose to combine "the best of both worlds": a new training approach for discriminative fine-tuning of LVLMs that results in strong discriminative and compositional capabilities. Essentially, our approach converts a generative LVLM into a discriminative one, unlocking its capability for powerful image-text discrimination combined with enhanced language understanding. Our contributions include: (1) A carefully designed training/optimization framework that utilizes image-text pairs of variable length and granularity for training the model with both contrastive and next-token prediction losses. This is accompanied by ablation studies that justify the necessity of our framework's components. (2) A parameter-efficient adaptation method using a combination of soft prompting and LoRA adapters. (3) Significant improvements over state-of-the-art CLIP-like models of similar size, including standard image-text retrieval benchmarks and notable gains in compositionality.

Summary

AI-Generated Summary

PDF112December 6, 2024