ChatPaper.aiChatPaper

Diskriminatives Feintuning von LVLMs

Discriminative Fine-tuning of LVLMs

December 5, 2024
Autoren: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI

Zusammenfassung

Kontrastiv trainierte Vision-Language-Modelle (VLMs) wie CLIP sind zum de facto Ansatz für das diskriminative Erlernen von Vision-Language-Repräsentationen geworden. Diese Modelle weisen jedoch eine begrenzte Sprachverständnis auf und zeigen oft ein "Bag of Words"-Verhalten. Gleichzeitig haben sich große Vision-Language-Modelle (LVLMs), die Bildencoder mit LLMs kombinieren, als fähig erwiesen, detaillierte Vision-Language-Schlussfolgerungen zu ziehen, doch ihre autoregressive Natur macht sie weniger geeignet für diskriminative Aufgaben. In dieser Arbeit schlagen wir vor, "das Beste aus beiden Welten zu kombinieren": einen neuen Schulungsansatz für das diskriminative Feintuning von LVLMs, der zu starken diskriminativen und kompositorischen Fähigkeiten führt. Grundsätzlich wandelt unser Ansatz ein generatives LVLM in ein diskriminatives um, um seine Fähigkeit für leistungsstarke Bild-Text-Diskriminierung in Verbindung mit verbessertem Sprachverständnis zu erschließen. Unsere Beiträge umfassen: (1) Ein sorgfältig gestaltetes Schulungs-/Optimierungsrahmenwerk, das Bild-Text-Paare unterschiedlicher Länge und Granularität für das Training des Modells mit sowohl kontrastiven als auch Next-Token-Vorhersageverlusten verwendet. Dies wird durch Ablationsstudien begleitet, die die Notwendigkeit der Komponenten unseres Rahmens rechtfertigen. (2) Eine parameter-effiziente Anpassungsmethode unter Verwendung einer Kombination aus Soft Prompting und LoRA-Adaptern. (3) Signifikante Verbesserungen gegenüber modernen CLIP-ähnlichen Modellen ähnlicher Größe, einschließlich Standard-Bild-Text-Retrieval-Benchmarks und bemerkenswerten Fortschritten in der Kompositionalität.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the de facto approach for discriminative vision-language representation learning. However, these models have limited language understanding, often exhibiting a "bag of words" behavior. At the same time, Large Vision-Language Models (LVLMs), which combine vision encoders with LLMs, have been shown capable of detailed vision-language reasoning, yet their autoregressive nature renders them less suitable for discriminative tasks. In this work, we propose to combine "the best of both worlds": a new training approach for discriminative fine-tuning of LVLMs that results in strong discriminative and compositional capabilities. Essentially, our approach converts a generative LVLM into a discriminative one, unlocking its capability for powerful image-text discrimination combined with enhanced language understanding. Our contributions include: (1) A carefully designed training/optimization framework that utilizes image-text pairs of variable length and granularity for training the model with both contrastive and next-token prediction losses. This is accompanied by ablation studies that justify the necessity of our framework's components. (2) A parameter-efficient adaptation method using a combination of soft prompting and LoRA adapters. (3) Significant improvements over state-of-the-art CLIP-like models of similar size, including standard image-text retrieval benchmarks and notable gains in compositionality.

Summary

AI-Generated Summary

PDF112December 6, 2024