MIA-DPO: Ottimizzazione Diretta delle Preferenze Multi-Immagine per Modelli di Visione-Linguaggio di Grandi DimensioniMIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
L'allineamento delle preferenze visive coinvolge l'addestramento dei Grandi Modelli Visione-Linguaggio (LVLM) per prevedere le preferenze umane tra input visivi. Questo viene tipicamente ottenuto utilizzando set di dati etichettati di coppie scelte/rifiutate e impiegando algoritmi di ottimizzazione come l'ottimizzazione diretta delle preferenze (DPO). I metodi di allineamento visivo esistenti, principalmente progettati per scenari con singole immagini, faticano ad affrontare efficacemente la complessità dei compiti multi-immagine a causa della scarsità di dati di addestramento diversificati e dell'alto costo dell'annotazione delle coppie scelte/rifiutate. Presentiamo l'Ottimizzazione Diretta delle Preferenze con Augmentazione Multi-Immagine (MIA-DPO), un approccio all'allineamento delle preferenze visive che gestisce efficacemente gli input multi-immagine. MIA-DPO attenua la scarsità di dati di addestramento multi-immagine diversificati estendendo i dati delle singole immagini con immagini non correlate disposte in collage a griglia o in formato immagine nell'immagine, riducendo significativamente i costi associati alle annotazioni dei dati multi-immagine. La nostra osservazione rivela che i valori di attenzione dei LVLM variano considerevolmente tra diverse immagini. Utilizziamo i valori di attenzione per identificare e filtrare le risposte rifiutate su cui il modello potrebbe aver erroneamente focalizzato l'attenzione. La nostra selezione consapevole dell'attenzione per la costruzione delle coppie scelte/rifiutate avviene senza fare affidamento su (i) annotazioni umane, (ii) dati aggiuntivi e (iii) modelli o API esterni. MIA-DPO è compatibile con varie architetture e supera i metodi esistenti su cinque benchmark multi-immagine, ottenendo un aumento medio delle prestazioni del 3,0% su LLaVA-v1.5 e del 4,3% sul recente InternLM-XC2.5. Inoltre, MIA-DPO ha un effetto minimo sulla capacità del modello di comprendere singole immagini.