Compreensão da Alinhamento em Modelos de Linguagem Multimodais: Um Estudo Abrangente
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
July 2, 2024
Autores: Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
cs.AI
Resumo
A alinhamento de preferências tornou-se um componente crucial na melhoria do desempenho de Modelos de Linguagem Grandes (LLMs), no entanto, seu impacto em Modelos de Linguagem Grandes Multimodais (MLLMs) ainda é relativamente pouco explorado. Semelhante aos modelos de linguagem, MLLMs para tarefas de compreensão de imagens enfrentam desafios como a alucinação. Em MLLMs, a alucinação pode ocorrer não apenas ao declarar fatos incorretos, mas também ao produzir respostas que são inconsistentes com o conteúdo da imagem. Um objetivo primário do alinhamento para MLLMs é incentivar esses modelos a alinhar as respostas mais de perto com as informações da imagem. Recentemente, vários trabalhos introduziram conjuntos de dados de preferência para MLLMs e examinaram diferentes métodos de alinhamento, incluindo Otimização Direta de Preferência (DPO) e Otimização de Política Proximal (PPO). No entanto, devido a variações nos conjuntos de dados, tipos de modelos base e métodos de alinhamento, ainda não está claro quais elementos específicos contribuem mais significativamente para as melhorias relatadas nesses trabalhos. Neste artigo, analisamos independentemente cada aspecto do alinhamento de preferências em MLLMs. Começamos categorizando os algoritmos de alinhamento em dois grupos, offline (como DPO) e online (como online-DPO), e mostramos que a combinação de métodos offline e online pode melhorar o desempenho do modelo em determinados cenários. Revisamos uma variedade de conjuntos de dados de preferência multimodais publicados e discutimos como os detalhes de sua construção impactam o desempenho do modelo. Com base nesses insights, introduzimos uma nova forma de criar dados de preferência multimodais chamada Amostragem de Alucinação Dirigida por Viés (BDHS) que não necessita de anotação adicional nem de modelos externos, e mostramos que pode alcançar um desempenho competitivo em relação ao trabalho de alinhamento previamente publicado para modelos multimodais em uma variedade de benchmarks.
English
Preference alignment has become a crucial component in enhancing the
performance of Large Language Models (LLMs), yet its impact in Multimodal Large
Language Models (MLLMs) remains comparatively underexplored. Similar to
language models, MLLMs for image understanding tasks encounter challenges like
hallucination. In MLLMs, hallucination can occur not only by stating incorrect
facts but also by producing responses that are inconsistent with the image
content. A primary objective of alignment for MLLMs is to encourage these
models to align responses more closely with image information. Recently,
multiple works have introduced preference datasets for MLLMs and examined
different alignment methods, including Direct Preference Optimization (DPO) and
Proximal Policy Optimization (PPO). However, due to variations in datasets,
base model types, and alignment methods, it remains unclear which specific
elements contribute most significantly to the reported improvements in these
works. In this paper, we independently analyze each aspect of preference
alignment in MLLMs. We start by categorizing the alignment algorithms into two
groups, offline (such as DPO), and online (such as online-DPO), and show that
combining offline and online methods can improve the performance of the model
in certain scenarios. We review a variety of published multimodal preference
datasets and discuss how the details of their construction impact model
performance. Based on these insights, we introduce a novel way of creating
multimodal preference data called Bias-Driven Hallucination Sampling (BDHS)
that needs neither additional annotation nor external models, and show that it
can achieve competitive performance to previously published alignment work for
multimodal models across a range of benchmarks.