Дискриминативная настройка LVLMs
Discriminative Fine-tuning of LVLMs
December 5, 2024
Авторы: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Аннотация
Контрастно-обучаемые модели видео-языка (VLM), такие как CLIP, стали фактическим подходом к обучению дискриминативного представления видео-языка. Однако эти модели имеют ограниченное понимание языка, часто проявляя "мешок слов" поведение. В то же время большие модели видео-языка (LVLM), которые объединяют кодировщики видео с LLM, показали способность к детальному видео-языковому рассуждению, однако их авторегрессивная природа делает их менее подходящими для дискриминативных задач.
В данной работе мы предлагаем объединить "лучшее из обоих миров": новый подход к обучению дискриминативной донастройки LVLM, который приводит к сильным дискриминативным и композиционным возможностям. По сути, наш подход преобразует генеративную LVLM в дискриминативную, разблокируя ее способность к мощной дискриминации изображений и текста в сочетании с улучшенным пониманием языка.
Наши вклады включают: (1) Тщательно разработанную структуру обучения/оптимизации, которая использует пары изображений и текста переменной длины и структуры для обучения модели с использованием как контрастных, так и потерь предсказания следующего токена. Это сопровождается исследованиями абляции, которые обосновывают необходимость компонентов нашей структуры. (2) Метод адаптации с эффективными параметрами с использованием комбинации мягкого подсказывания и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями, подобными CLIP, схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные приросты в композициональности.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the
de facto approach for discriminative vision-language representation learning.
However, these models have limited language understanding, often exhibiting a
"bag of words" behavior. At the same time, Large Vision-Language Models
(LVLMs), which combine vision encoders with LLMs, have been shown capable of
detailed vision-language reasoning, yet their autoregressive nature renders
them less suitable for discriminative tasks.
In this work, we propose to combine "the best of both worlds": a new training
approach for discriminative fine-tuning of LVLMs that results in strong
discriminative and compositional capabilities. Essentially, our approach
converts a generative LVLM into a discriminative one, unlocking its capability
for powerful image-text discrimination combined with enhanced language
understanding.
Our contributions include: (1) A carefully designed training/optimization
framework that utilizes image-text pairs of variable length and granularity for
training the model with both contrastive and next-token prediction losses. This
is accompanied by ablation studies that justify the necessity of our
framework's components. (2) A parameter-efficient adaptation method using a
combination of soft prompting and LoRA adapters. (3) Significant improvements
over state-of-the-art CLIP-like models of similar size, including standard
image-text retrieval benchmarks and notable gains in compositionality.Summary
AI-Generated Summary