Verständnis der Ausrichtung in Multimodalen Sprach- und Bildmodellen: Eine Umfassende Studie
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
July 2, 2024
Autoren: Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
cs.AI
Zusammenfassung
Die Ausrichtung der Präferenzen ist zu einem entscheidenden Bestandteil zur Verbesserung der Leistung von Großen Sprachmodellen (LLMs) geworden, doch ihr Einfluss auf Multimodale Große Sprachmodelle (MLLMs) ist vergleichsweise noch wenig erforscht. Ähnlich wie Sprachmodelle sehen sich MLLMs für Bildverständnisaufgaben mit Herausforderungen wie Halluzinationen konfrontiert. In MLLMs kann Halluzination nicht nur durch die Angabe falscher Fakten auftreten, sondern auch durch die Erzeugung von Antworten, die nicht mit dem Bildinhalt übereinstimmen. Ein Hauptziel der Ausrichtung für MLLMs besteht darin, diese Modelle dazu zu bringen, ihre Antworten enger an die Bildinformationen anzupassen. In letzter Zeit haben mehrere Arbeiten Präferenzdatensätze für MLLMs eingeführt und verschiedene Ausrichtungsmethoden untersucht, darunter die Direkte Präferenzoptimierung (DPO) und die Proximale Richtlinienoptimierung (PPO). Aufgrund von Unterschieden in den Datensätzen, Basismodelltypen und Ausrichtungsmethoden ist jedoch unklar, welche spezifischen Elemente am stärksten zu den berichteten Verbesserungen in diesen Arbeiten beitragen. In diesem Artikel analysieren wir unabhängig jeden Aspekt der Präferenzausrichtung in MLLMs. Wir beginnen damit, die Ausrichtungsalgorithmen in zwei Gruppen zu kategorisieren, offline (wie DPO) und online (wie Online-DPO), und zeigen, dass die Kombination von Offline- und Online-Methoden die Leistung des Modells in bestimmten Szenarien verbessern kann. Wir überprüfen eine Vielzahl von veröffentlichten multimodalen Präferenzdatensätzen und diskutieren, wie die Details zu ihrer Erstellung die Modellleistung beeinflussen. Basierend auf diesen Erkenntnissen stellen wir eine neue Methode zur Erstellung von multimodalen Präferenzdaten namens Bias-Driven Hallucination Sampling (BDHS) vor, die weder zusätzliche Annotationen noch externe Modelle erfordert, und zeigen, dass sie eine wettbewerbsfähige Leistung im Vergleich zu zuvor veröffentlichten Ausrichtungsarbeiten für multimodale Modelle über eine Reihe von Benchmarks erzielen kann.
English
Preference alignment has become a crucial component in enhancing the
performance of Large Language Models (LLMs), yet its impact in Multimodal Large
Language Models (MLLMs) remains comparatively underexplored. Similar to
language models, MLLMs for image understanding tasks encounter challenges like
hallucination. In MLLMs, hallucination can occur not only by stating incorrect
facts but also by producing responses that are inconsistent with the image
content. A primary objective of alignment for MLLMs is to encourage these
models to align responses more closely with image information. Recently,
multiple works have introduced preference datasets for MLLMs and examined
different alignment methods, including Direct Preference Optimization (DPO) and
Proximal Policy Optimization (PPO). However, due to variations in datasets,
base model types, and alignment methods, it remains unclear which specific
elements contribute most significantly to the reported improvements in these
works. In this paper, we independently analyze each aspect of preference
alignment in MLLMs. We start by categorizing the alignment algorithms into two
groups, offline (such as DPO), and online (such as online-DPO), and show that
combining offline and online methods can improve the performance of the model
in certain scenarios. We review a variety of published multimodal preference
datasets and discuss how the details of their construction impact model
performance. Based on these insights, we introduce a novel way of creating
multimodal preference data called Bias-Driven Hallucination Sampling (BDHS)
that needs neither additional annotation nor external models, and show that it
can achieve competitive performance to previously published alignment work for
multimodal models across a range of benchmarks.Summary
AI-Generated Summary