MIA-DPO: Ottimizzazione Diretta delle Preferenze Multi-Immagine per Modelli di Visione-Linguaggio di Grandi Dimensioni
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
October 23, 2024
Autori: Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
L'allineamento delle preferenze visive coinvolge l'addestramento dei Grandi Modelli Visione-Linguaggio (LVLM) per prevedere le preferenze umane tra input visivi. Questo viene tipicamente ottenuto utilizzando set di dati etichettati di coppie scelte/rifiutate e impiegando algoritmi di ottimizzazione come l'ottimizzazione diretta delle preferenze (DPO). I metodi di allineamento visivo esistenti, principalmente progettati per scenari con singole immagini, faticano ad affrontare efficacemente la complessità dei compiti multi-immagine a causa della scarsità di dati di addestramento diversificati e dell'alto costo dell'annotazione delle coppie scelte/rifiutate. Presentiamo l'Ottimizzazione Diretta delle Preferenze con Augmentazione Multi-Immagine (MIA-DPO), un approccio all'allineamento delle preferenze visive che gestisce efficacemente gli input multi-immagine. MIA-DPO attenua la scarsità di dati di addestramento multi-immagine diversificati estendendo i dati delle singole immagini con immagini non correlate disposte in collage a griglia o in formato immagine nell'immagine, riducendo significativamente i costi associati alle annotazioni dei dati multi-immagine. La nostra osservazione rivela che i valori di attenzione dei LVLM variano considerevolmente tra diverse immagini. Utilizziamo i valori di attenzione per identificare e filtrare le risposte rifiutate su cui il modello potrebbe aver erroneamente focalizzato l'attenzione. La nostra selezione consapevole dell'attenzione per la costruzione delle coppie scelte/rifiutate avviene senza fare affidamento su (i) annotazioni umane, (ii) dati aggiuntivi e (iii) modelli o API esterni. MIA-DPO è compatibile con varie architetture e supera i metodi esistenti su cinque benchmark multi-immagine, ottenendo un aumento medio delle prestazioni del 3,0% su LLaVA-v1.5 e del 4,3% sul recente InternLM-XC2.5. Inoltre, MIA-DPO ha un effetto minimo sulla capacità del modello di comprendere singole immagini.
English
Visual preference alignment involves training Large Vision-Language Models
(LVLMs) to predict human preferences between visual inputs. This is typically
achieved by using labeled datasets of chosen/rejected pairs and employing
optimization algorithms like direct preference optimization (DPO). Existing
visual alignment methods, primarily designed for single-image scenarios,
struggle to effectively handle the complexity of multi-image tasks due to the
scarcity of diverse training data and the high cost of annotating
chosen/rejected pairs. We present Multi-Image Augmented Direct Preference
Optimization (MIA-DPO), a visual preference alignment approach that effectively
handles multi-image inputs. MIA-DPO mitigates the scarcity of diverse
multi-image training data by extending single-image data with unrelated images
arranged in grid collages or pic-in-pic formats, significantly reducing the
costs associated with multi-image data annotations. Our observation reveals
that attention values of LVLMs vary considerably across different images. We
use attention values to identify and filter out rejected responses the model
may have mistakenly focused on. Our attention-aware selection for constructing
the chosen/rejected pairs without relying on (i) human annotation, (ii) extra
data, and (iii) external models or APIs. MIA-DPO is compatible with various
architectures and outperforms existing methods on five multi-image benchmarks,
achieving an average performance boost of 3.0% on LLaVA-v1.5 and 4.3% on the
recent InternLM-XC2.5. Moreover, MIA-DPO has a minimal effect on the model's
ability to understand single images.Summary
AI-Generated Summary