MIA-DPO: Optimización de Preferencia Directa Aumentada de Múltiples Imágenes para Modelos de Visión-Lenguaje Grandes
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
Autores: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
La alineación de preferencias visuales implica entrenar Modelos de Gran Visión-Lenguaje (LVLMs) para predecir las preferencias humanas entre entradas visuales. Esto se logra típicamente utilizando conjuntos de datos etiquetados de pares elegidos/rechazados y empleando algoritmos de optimización como la optimización directa de preferencias (DPO). Los métodos de alineación visual existentes, diseñados principalmente para escenarios de imágenes individuales, tienen dificultades para manejar efectivamente la complejidad de tareas con múltiples imágenes debido a la escasez de datos de entrenamiento diversos y al alto costo de la anotación de pares elegidos/rechazados. Presentamos la Optimización Directa de Preferencias Aumentada con Múltiples Imágenes (MIA-DPO), un enfoque de alineación de preferencias visuales que maneja efectivamente entradas de múltiples imágenes. MIA-DPO mitiga la escasez de datos de entrenamiento de múltiples imágenes diversos al extender los datos de imágenes individuales con imágenes no relacionadas dispuestas en collages de cuadrícula o formatos de imagen en imagen, reduciendo significativamente los costos asociados con las anotaciones de datos de múltiples imágenes. Nuestra observación revela que los valores de atención de los LVLMs varían considerablemente entre diferentes imágenes. Utilizamos los valores de atención para identificar y filtrar las respuestas rechazadas en las que el modelo pudo haberse enfocado erróneamente. Nuestra selección consciente de la atención para construir los pares elegidos/rechazados prescinde de (i) la anotación humana, (ii) datos adicionales, y (iii) modelos o APIs externos. MIA-DPO es compatible con varias arquitecturas y supera a los métodos existentes en cinco pruebas de múltiples imágenes, logrando un aumento promedio del rendimiento del 3.0% en LLaVA-v1.5 y del 4.3% en el reciente InternLM-XC2.5. Además, MIA-DPO tiene un efecto mínimo en la capacidad del modelo para entender imágenes individuales.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.