Comprendre l'alignement dans les LLMs multimodaux : une étude approfondie
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
July 2, 2024
Auteurs: Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
cs.AI
Résumé
L'alignement des préférences est devenu un élément crucial pour améliorer les performances des modèles de langage de grande taille (LLMs), mais son impact sur les modèles de langage multimodaux de grande taille (MLLMs) reste relativement peu exploré. À l'instar des modèles de langage, les MLLMs dédiés aux tâches de compréhension d'images rencontrent des défis tels que l'hallucination. Dans les MLLMs, l'hallucination peut se manifester non seulement par l'énoncé de faits incorrects, mais aussi par la production de réponses incohérentes avec le contenu de l'image. Un objectif principal de l'alignement pour les MLLMs est d'encourager ces modèles à aligner leurs réponses plus étroitement avec les informations contenues dans l'image. Récemment, plusieurs travaux ont introduit des ensembles de données de préférences pour les MLLMs et examiné différentes méthodes d'alignement, notamment l'optimisation directe des préférences (DPO) et l'optimisation proximale des politiques (PPO). Cependant, en raison des variations dans les ensembles de données, les types de modèles de base et les méthodes d'alignement, il reste difficile de déterminer quels éléments spécifiques contribuent le plus significativement aux améliorations rapportées dans ces travaux. Dans cet article, nous analysons indépendamment chaque aspect de l'alignement des préférences dans les MLLMs. Nous commençons par classer les algorithmes d'alignement en deux groupes, hors ligne (comme la DPO) et en ligne (comme la DPO en ligne), et montrons que la combinaison des méthodes hors ligne et en ligne peut améliorer les performances du modèle dans certains scénarios. Nous passons en revue une variété d'ensembles de données de préférences multimodales publiés et discutons de la manière dont les détails de leur construction influencent les performances du modèle. Sur la base de ces observations, nous introduisons une nouvelle méthode de création de données de préférences multimodales appelée Échantillonnage d'Hallucination Piloté par les Biais (BDHS), qui ne nécessite ni annotation supplémentaire ni modèles externes, et montrons qu'elle peut atteindre des performances compétitives par rapport aux travaux d'alignement précédemment publiés pour les modèles multimodaux sur une gamme de benchmarks.
English
Preference alignment has become a crucial component in enhancing the
performance of Large Language Models (LLMs), yet its impact in Multimodal Large
Language Models (MLLMs) remains comparatively underexplored. Similar to
language models, MLLMs for image understanding tasks encounter challenges like
hallucination. In MLLMs, hallucination can occur not only by stating incorrect
facts but also by producing responses that are inconsistent with the image
content. A primary objective of alignment for MLLMs is to encourage these
models to align responses more closely with image information. Recently,
multiple works have introduced preference datasets for MLLMs and examined
different alignment methods, including Direct Preference Optimization (DPO) and
Proximal Policy Optimization (PPO). However, due to variations in datasets,
base model types, and alignment methods, it remains unclear which specific
elements contribute most significantly to the reported improvements in these
works. In this paper, we independently analyze each aspect of preference
alignment in MLLMs. We start by categorizing the alignment algorithms into two
groups, offline (such as DPO), and online (such as online-DPO), and show that
combining offline and online methods can improve the performance of the model
in certain scenarios. We review a variety of published multimodal preference
datasets and discuss how the details of their construction impact model
performance. Based on these insights, we introduce a novel way of creating
multimodal preference data called Bias-Driven Hallucination Sampling (BDHS)
that needs neither additional annotation nor external models, and show that it
can achieve competitive performance to previously published alignment work for
multimodal models across a range of benchmarks.Summary
AI-Generated Summary