MIA-DPO: Optimización de Preferencia Directa Aumentada de Múltiples Imágenes para Modelos de Visión-Lenguaje GrandesMIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
La alineación de preferencias visuales implica entrenar Modelos de Gran Visión-Lenguaje (LVLMs) para predecir las preferencias humanas entre entradas visuales. Esto se logra típicamente utilizando conjuntos de datos etiquetados de pares elegidos/rechazados y empleando algoritmos de optimización como la optimización directa de preferencias (DPO). Los métodos de alineación visual existentes, diseñados principalmente para escenarios de imágenes individuales, tienen dificultades para manejar efectivamente la complejidad de tareas con múltiples imágenes debido a la escasez de datos de entrenamiento diversos y al alto costo de la anotación de pares elegidos/rechazados. Presentamos la Optimización Directa de Preferencias Aumentada con Múltiples Imágenes (MIA-DPO), un enfoque de alineación de preferencias visuales que maneja efectivamente entradas de múltiples imágenes. MIA-DPO mitiga la escasez de datos de entrenamiento de múltiples imágenes diversos al extender los datos de imágenes individuales con imágenes no relacionadas dispuestas en collages de cuadrícula o formatos de imagen en imagen, reduciendo significativamente los costos asociados con las anotaciones de datos de múltiples imágenes. Nuestra observación revela que los valores de atención de los LVLMs varían considerablemente entre diferentes imágenes. Utilizamos los valores de atención para identificar y filtrar las respuestas rechazadas en las que el modelo pudo haberse enfocado erróneamente. Nuestra selección consciente de la atención para construir los pares elegidos/rechazados prescinde de (i) la anotación humana, (ii) datos adicionales, y (iii) modelos o APIs externos. MIA-DPO es compatible con varias arquitecturas y supera a los métodos existentes en cinco pruebas de múltiples imágenes, logrando un aumento promedio del rendimiento del 3.0% en LLaVA-v1.5 y del 4.3% en el reciente InternLM-XC2.5. Además, MIA-DPO tiene un efecto mínimo en la capacidad del modelo para entender imágenes individuales.