Comprensione dell'Allineamento nei Modelli Linguistici Multimodali: Uno Studio Completo
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
July 2, 2024
Autori: Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
cs.AI
Abstract
L'allineamento delle preferenze è diventato un componente cruciale per migliorare le prestazioni dei Large Language Models (LLM), tuttavia il suo impatto nei Multimodal Large Language Models (MLLM) rimane relativamente poco esplorato. Similmente ai modelli linguistici, gli MLLM per compiti di comprensione delle immagini affrontano sfide come l'allucinazione. Negli MLLM, l'allucinazione può verificarsi non solo affermando fatti errati, ma anche producendo risposte incoerenti con il contenuto dell'immagine. Un obiettivo primario dell'allineamento per gli MLLM è incoraggiare questi modelli ad allineare le risposte più strettamente con le informazioni dell'immagine. Recentemente, numerosi lavori hanno introdotto dataset di preferenze per gli MLLM e hanno esaminato diversi metodi di allineamento, tra cui Direct Preference Optimization (DPO) e Proximal Policy Optimization (PPO). Tuttavia, a causa delle variazioni nei dataset, nei tipi di modelli di base e nei metodi di allineamento, non è chiaro quali elementi specifici contribuiscano in modo più significativo ai miglioramenti riportati in questi lavori. In questo articolo, analizziamo indipendentemente ogni aspetto dell'allineamento delle preferenze negli MLLM. Iniziamo categorizzando gli algoritmi di allineamento in due gruppi, offline (come DPO) e online (come online-DPO), e dimostriamo che combinare metodi offline e online può migliorare le prestazioni del modello in determinati scenari. Esaminiamo una varietà di dataset di preferenze multimodali pubblicati e discutiamo come i dettagli della loro costruzione influenzino le prestazioni del modello. Sulla base di queste intuizioni, introduciamo un nuovo metodo per creare dati di preferenze multimodali chiamato Bias-Driven Hallucination Sampling (BDHS) che non richiede né annotazioni aggiuntive né modelli esterni, e dimostriamo che può raggiungere prestazioni competitive rispetto ai lavori di allineamento precedentemente pubblicati per modelli multimodali su una gamma di benchmark.
English
Preference alignment has become a crucial component in enhancing the
performance of Large Language Models (LLMs), yet its impact in Multimodal Large
Language Models (MLLMs) remains comparatively underexplored. Similar to
language models, MLLMs for image understanding tasks encounter challenges like
hallucination. In MLLMs, hallucination can occur not only by stating incorrect
facts but also by producing responses that are inconsistent with the image
content. A primary objective of alignment for MLLMs is to encourage these
models to align responses more closely with image information. Recently,
multiple works have introduced preference datasets for MLLMs and examined
different alignment methods, including Direct Preference Optimization (DPO) and
Proximal Policy Optimization (PPO). However, due to variations in datasets,
base model types, and alignment methods, it remains unclear which specific
elements contribute most significantly to the reported improvements in these
works. In this paper, we independently analyze each aspect of preference
alignment in MLLMs. We start by categorizing the alignment algorithms into two
groups, offline (such as DPO), and online (such as online-DPO), and show that
combining offline and online methods can improve the performance of the model
in certain scenarios. We review a variety of published multimodal preference
datasets and discuss how the details of their construction impact model
performance. Based on these insights, we introduce a novel way of creating
multimodal preference data called Bias-Driven Hallucination Sampling (BDHS)
that needs neither additional annotation nor external models, and show that it
can achieve competitive performance to previously published alignment work for
multimodal models across a range of benchmarks.