MIA-DPO : Optimisation des Préférences Directes Augmentées Multi-Images pour les Grands Modèles Vision- LangageMIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
L'alignement des préférences visuelles consiste à entraîner de grands modèles vision-langage (LVLM) à prédire les préférences humaines entre des entrées visuelles. Cela est généralement réalisé en utilisant des ensembles de données étiquetés de paires choisies/rejetées et en employant des algorithmes d'optimisation tels que l'optimisation directe des préférences (DPO). Les méthodes d'alignement visuel existantes, principalement conçues pour des scénarios d'image unique, ont du mal à gérer efficacement la complexité des tâches multi-images en raison de la rareté des données d'entraînement diverses et du coût élevé de l'annotation des paires choisies/rejetées. Nous présentons l'Optimisation Directe des Préférences Augmentée Multi-Images (MIA-DPO), une approche d'alignement des préférences visuelles qui gère efficacement les entrées multi-images. MIA-DPO atténue la rareté des données d'entraînement multi-images diverses en étendant les données d'image unique avec des images non apparentées disposées en collages de grilles ou en formats image dans l'image, réduisant significativement les coûts associés aux annotations de données multi-images. Notre observation révèle que les valeurs d'attention des LVLM varient considérablement d'une image à l'autre. Nous utilisons les valeurs d'attention pour identifier et filtrer les réponses rejetées sur lesquelles le modèle aurait pu se concentrer par erreur. Notre sélection consciente de l'attention pour construire les paires choisies/rejetées sans recourir à (i) une annotation humaine, (ii) des données supplémentaires, et (iii) des modèles ou API externes. MIA-DPO est compatible avec diverses architectures et surpasse les méthodes existantes sur cinq référentiels multi-images, obtenant une amélioration de performance moyenne de 3,0% sur LLaVA-v1.5 et de 4,3% sur le récent InternLM-XC2.5. De plus, MIA-DPO a un effet minimal sur la capacité du modèle à comprendre des images uniques.