MIA-DPO: Multi-Bild-Augmented Direct Preference Optimization für große
Vision-Sprach-ModelleMIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large
Vision-Language Models
Die visuelle Präferenzabstimmung beinhaltet das Training von Large Vision-Language Models (LVLMs) zur Vorhersage menschlicher Präferenzen zwischen visuellen Eingaben. Dies wird typischerweise durch die Verwendung von gelabelten Datensätzen von ausgewählten/abgelehnten Paaren und die Anwendung von Optimierungsalgorithmen wie dem direkten Präferenzoptimierungsverfahren (DPO) erreicht. Bestehende visuelle Ausrichtungsmethoden, die hauptsächlich für Einzelbildszenarien konzipiert wurden, haben Schwierigkeiten, die Komplexität von Multi-Bild-Aufgaben effektiv zu bewältigen, aufgrund der Knappheit von vielfältigen Trainingsdaten und der hohen Kosten für die Annotation von ausgewählten/abgelehnten Paaren. Wir präsentieren Multi-Bild-augmentierte Direkte Präferenzoptimierung (MIA-DPO), einen Ansatz zur visuellen Präferenzabstimmung, der Multi-Bild-Eingaben effektiv verarbeitet. MIA-DPO mildert die Knappheit von vielfältigen Multi-Bild-Trainingsdaten, indem es Einzelbild-Daten mit nicht verwandten Bildern in Raster-Collagen oder Bild-in-Bild-Formaten erweitert, was die Kosten für die Annotation von Multi-Bild-Daten erheblich reduziert. Unsere Beobachtung zeigt, dass die Aufmerksamkeitswerte von LVLMs bei verschiedenen Bildern erheblich variieren. Wir verwenden Aufmerksamkeitswerte, um abgelehnte Antworten zu identifizieren und herauszufiltern, auf die das Modell fälschlicherweise fokussiert haben könnte. Unsere auf Aufmerksamkeit basierende Auswahl zur Konstruktion der ausgewählten/abgelehnten Paare erfolgt ohne (i) menschliche Annotation, (ii) zusätzliche Daten und (iii) externe Modelle oder APIs. MIA-DPO ist mit verschiedenen Architekturen kompatibel und übertrifft bestehende Methoden in fünf Multi-Bild-Benchmarks, wobei eine durchschnittliche Leistungssteigerung von 3,0% bei LLaVA-v1.5 und 4,3% bei dem kürzlich veröffentlichten InternLM-XC2.5 erzielt wird. Darüber hinaus hat MIA-DPO nur minimale Auswirkungen auf die Fähigkeit des Modells, Einzelbilder zu verstehen.