Ajuste discriminativo de LVLMs
Discriminative Fine-tuning of LVLMs
December 5, 2024
Autores: Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez
cs.AI
Resumen
Los Modelos de Visión-Lenguaje Entrenados de Forma Contrastiva (VLMs) como CLIP se han convertido en el enfoque por defecto para el aprendizaje de representaciones visión-lenguaje de forma discriminativa. Sin embargo, estos modelos tienen una comprensión limitada del lenguaje, mostrando a menudo un comportamiento de "saco de palabras". Al mismo tiempo, los Modelos de Visión-Lenguaje Grandes (LVLMs), que combinan codificadores de visión con LLMs, han demostrado ser capaces de razonamiento detallado visión-lenguaje, aunque su naturaleza autoregresiva los hace menos adecuados para tareas discriminativas.
En este trabajo, proponemos combinar "lo mejor de ambos mundos": un nuevo enfoque de entrenamiento para el ajuste fino discriminativo de LVLMs que resulta en fuertes capacidades discriminativas y de composición. Esencialmente, nuestro enfoque convierte un LVLM generativo en uno discriminativo, desbloqueando su capacidad para una potente discriminación imagen-texto combinada con una comprensión del lenguaje mejorada.
Nuestras contribuciones incluyen: (1) Un marco de entrenamiento/optimización cuidadosamente diseñado que utiliza pares imagen-texto de longitud y granularidad variables para entrenar el modelo con pérdidas de predicción contrastiva y de siguiente token. Esto va acompañado de estudios de ablación que justifican la necesidad de los componentes de nuestro marco. (2) Un método de adaptación eficiente en parámetros que utiliza una combinación de indicaciones suaves y adaptadores LoRA. (3) Mejoras significativas sobre los modelos CLIP similares de última generación en tamaño, incluyendo pruebas estándar de recuperación imagen-texto y ganancias notables en composicionalidad.
English
Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the
de facto approach for discriminative vision-language representation learning.
However, these models have limited language understanding, often exhibiting a
"bag of words" behavior. At the same time, Large Vision-Language Models
(LVLMs), which combine vision encoders with LLMs, have been shown capable of
detailed vision-language reasoning, yet their autoregressive nature renders
them less suitable for discriminative tasks.
In this work, we propose to combine "the best of both worlds": a new training
approach for discriminative fine-tuning of LVLMs that results in strong
discriminative and compositional capabilities. Essentially, our approach
converts a generative LVLM into a discriminative one, unlocking its capability
for powerful image-text discrimination combined with enhanced language
understanding.
Our contributions include: (1) A carefully designed training/optimization
framework that utilizes image-text pairs of variable length and granularity for
training the model with both contrastive and next-token prediction losses. This
is accompanied by ablation studies that justify the necessity of our
framework's components. (2) A parameter-efficient adaptation method using a
combination of soft prompting and LoRA adapters. (3) Significant improvements
over state-of-the-art CLIP-like models of similar size, including standard
image-text retrieval benchmarks and notable gains in compositionality.Summary
AI-Generated Summary