ChatPaper.aiChatPaper

Ajustement discriminatif des LVLMs

Discriminative Fine-tuning of LVLMs

December 5, 2024
Auteurs: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Résumé

Les Modèles Vision-Language entraînés de manière contrastive (VLM), tels que CLIP, sont devenus l'approche de facto pour l'apprentissage de représentations discriminatives vision-language. Cependant, ces modèles ont une compréhension limitée du langage, présentant souvent un comportement de "sac de mots". En même temps, les Grands Modèles Vision-Language (LVLM), qui combinent des encodeurs de vision avec des LLM, ont montré qu'ils étaient capables de raisonnement détaillé vision-language, mais leur nature autorégressive les rend moins adaptés aux tâches discriminatives. Dans ce travail, nous proposons de combiner "le meilleur des deux mondes" : une nouvelle approche d'entraînement pour l'ajustement fin discriminatif des LVLM qui se traduit par de fortes capacités discriminatives et compositionnelles. Essentiellement, notre approche convertit un LVLM génératif en un LVLM discriminatif, débloquant sa capacité pour une discrimination image-texte puissante combinée à une compréhension linguistique améliorée. Nos contributions comprennent : (1) Un cadre d'entraînement/optimisation soigneusement conçu qui utilise des paires image-texte de longueur et de granularité variables pour entraîner le modèle avec à la fois des pertes de prédiction contrastive et de prédiction du prochain jeton. Cela est accompagné d'études d'ablation qui justifient la nécessité des composants de notre cadre. (2) Une méthode d'adaptation efficace en termes de paramètres utilisant une combinaison de prompting doux et d'adaptateurs LoRA. (3) Des améliorations significatives par rapport aux modèles similaires à CLIP de pointe en termes de taille, y compris des référentiels d'images-textes standard et des gains notables en termes de compositionnalité.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the de facto approach for discriminative vision-language representation learning. However, these models have limited language understanding, often exhibiting a "bag of words" behavior. At the same time, Large Vision-Language Models (LVLMs), which combine vision encoders with LLMs, have been shown capable of detailed vision-language reasoning, yet their autoregressive nature renders them less suitable for discriminative tasks. In this work, we propose to combine "the best of both worlds": a new training approach for discriminative fine-tuning of LVLMs that results in strong discriminative and compositional capabilities. Essentially, our approach converts a generative LVLM into a discriminative one, unlocking its capability for powerful image-text discrimination combined with enhanced language understanding. Our contributions include: (1) A carefully designed training/optimization framework that utilizes image-text pairs of variable length and granularity for training the model with both contrastive and next-token prediction losses. This is accompanied by ablation studies that justify the necessity of our framework's components. (2) A parameter-efficient adaptation method using a combination of soft prompting and LoRA adapters. (3) Significant improvements over state-of-the-art CLIP-like models of similar size, including standard image-text retrieval benchmarks and notable gains in compositionality.

Summary

AI-Generated Summary

PDF112December 6, 2024