Ajuste discriminativo de LVLMs

Resumen

Los Modelos de Visión-Lenguaje Entrenados de Forma Contrastiva (VLMs) como CLIP se han convertido en el enfoque por defecto para el aprendizaje de representaciones visión-lenguaje de forma discriminativa. Sin embargo, estos modelos tienen una comprensión limitada del lenguaje, mostrando a menudo un comportamiento de "saco de palabras". Al mismo tiempo, los Modelos de Visión-Lenguaje Grandes (LVLMs), que combinan codificadores de visión con LLMs, han demostrado ser capaces de razonamiento detallado visión-lenguaje, aunque su naturaleza autoregresiva los hace menos adecuados para tareas discriminativas. En este trabajo, proponemos combinar "lo mejor de ambos mundos": un nuevo enfoque de entrenamiento para el ajuste fino discriminativo de LVLMs que resulta en fuertes capacidades discriminativas y de composición. Esencialmente, nuestro enfoque convierte un LVLM generativo en uno discriminativo, desbloqueando su capacidad para una potente discriminación imagen-texto combinada con una comprensión del lenguaje mejorada. Nuestras contribuciones incluyen: (1) Un marco de entrenamiento/optimización cuidadosamente diseñado que utiliza pares imagen-texto de longitud y granularidad variables para entrenar el modelo con pérdidas de predicción contrastiva y de siguiente token. Esto va acompañado de estudios de ablación que justifican la necesidad de los componentes de nuestro marco. (2) Un método de adaptación eficiente en parámetros que utiliza una combinación de indicaciones suaves y adaptadores LoRA. (3) Mejoras significativas sobre los modelos CLIP similares de última generación en tamaño, incluyendo pruebas estándar de recuperación imagen-texto y ganancias notables en composicionalidad.

English

Contrastively-trained Vision-Language Models (VLMs) like CLIP have become the de facto approach for discriminative vision-language representation learning. However, these models have limited language understanding, often exhibiting a "bag of words" behavior. At the same time, Large Vision-Language Models (LVLMs), which combine vision encoders with LLMs, have been shown capable of detailed vision-language reasoning, yet their autoregressive nature renders them less suitable for discriminative tasks. In this work, we propose to combine "the best of both worlds": a new training approach for discriminative fine-tuning of LVLMs that results in strong discriminative and compositional capabilities. Essentially, our approach converts a generative LVLM into a discriminative one, unlocking its capability for powerful image-text discrimination combined with enhanced language understanding. Our contributions include: (1) A carefully designed training/optimization framework that utilizes image-text pairs of variable length and granularity for training the model with both contrastive and next-token prediction losses. This is accompanied by ablation studies that justify the necessity of our framework's components. (2) A parameter-efficient adaptation method using a combination of soft prompting and LoRA adapters. (3) Significant improvements over state-of-the-art CLIP-like models of similar size, including standard image-text retrieval benchmarks and notable gains in compositionality.

Ajuste discriminativo de LVLMs

Discriminative Fine-tuning of LVLMs

Resumen

Support