Ajuste Discriminativo de LVLMs
Discriminative Fine-tuning of LVLMs
December 5, 2024
Autores: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Resumo
Modelos de Visão-Linguagem Treinados de Forma Contrastiva (VLMs), como o CLIP, tornaram-se a abordagem padrão para o aprendizado de representações discriminativas de visão-linguagem. No entanto, esses modelos têm entendimento limitado da linguagem, frequentemente exibindo um comportamento de "saco de palavras". Ao mesmo tempo, Modelos de Visão-Linguagem de Grande Escala (LVLMs), que combinam codificadores de visão com LLMs, têm demonstrado ser capazes de raciocínio detalhado de visão-linguagem, mas sua natureza autoregressiva os torna menos adequados para tarefas discriminativas.
Neste trabalho, propomos combinar "o melhor dos dois mundos": uma nova abordagem de treinamento para ajuste fino discriminativo de LVLMs que resulta em fortes capacidades discriminativas e composicionais. Essencialmente, nossa abordagem converte um LVLM generativo em um discriminativo, desbloqueando sua capacidade para discriminação poderosa de imagem-texto combinada com um entendimento aprimorado da linguagem.
Nossas contribuições incluem: (1) Um framework de treinamento/otimização cuidadosamente projetado que utiliza pares de imagem-texto de comprimento e granularidade variáveis para treinar o modelo com perdas de previsão contrastiva e de próximo token. Isso é acompanhado por estudos de ablação que justificam a necessidade dos componentes de nosso framework. (2) Um método de adaptação eficiente em termos de parâmetros usando uma combinação de sugestões suaves e adaptadores LoRA. (3) Melhorias significativas em relação aos modelos semelhantes ao CLIP de última geração de tamanho similar, incluindo benchmarks padrão de recuperação de imagem-texto e ganhos notáveis em composicionalidade.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the
de facto approach for discriminative vision-language representation learning.
However, these models have limited language understanding, often exhibiting a
"bag of words" behavior. At the same time, Large Vision-Language Models
(LVLMs), which combine vision encoders with LLMs, have been shown capable of
detailed vision-language reasoning, yet their autoregressive nature renders
them less suitable for discriminative tasks.
In this work, we propose to combine "the best of both worlds": a new training
approach for discriminative fine-tuning of LVLMs that results in strong
discriminative and compositional capabilities. Essentially, our approach
converts a generative LVLM into a discriminative one, unlocking its capability
for powerful image-text discrimination combined with enhanced language
understanding.
Our contributions include: (1) A carefully designed training/optimization
framework that utilizes image-text pairs of variable length and granularity for
training the model with both contrastive and next-token prediction losses. This
is accompanied by ablation studies that justify the necessity of our
framework's components. (2) A parameter-efficient adaptation method using a
combination of soft prompting and LoRA adapters. (3) Significant improvements
over state-of-the-art CLIP-like models of similar size, including standard
image-text retrieval benchmarks and notable gains in compositionality.Summary
AI-Generated Summary