Понимание выравнивания в мультимодальных языковых моделях: комплексное исследование
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
July 2, 2024
Авторы: Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
cs.AI
Аннотация
Выравнивание предпочтений стало ключевым компонентом для улучшения производительности больших языковых моделей (LLM), однако его влияние на мультимодальные большие языковые модели (MLLM) остается относительно малоизученным. Аналогично языковым моделям, MLLM для задач понимания изображений сталкиваются с вызовами, такими как галлюцинации. В MLLM галлюцинации могут возникать не только за счет неверного утверждения фактов, но и за счет выдачи ответов, несовместимых с содержанием изображения. Одной из основных целей выравнивания для MLLM является стимулирование этих моделей к более тесному соответствию ответов информации на изображении. Недавно было представлено несколько работ, в которых были введены наборы данных предпочтений для MLLM и исследованы различные методы выравнивания, включая прямую оптимизацию предпочтений (DPO) и оптимизацию ближайшей политики (PPO). Однако из-за различий в наборах данных, типах базовых моделей и методах выравнивания остается неясным, какие конкретные элементы вносят наиболее значительный вклад в отмеченные улучшения в этих работах. В данной статье мы независимо анализируем каждый аспект выравнивания предпочтений в MLLM. Мы начинаем с классификации алгоритмов выравнивания на две группы, оффлайн (такие как DPO) и онлайн (такие как онлайн-DPO), и показываем, что комбинирование оффлайн и онлайн методов может улучшить производительность модели в определенных сценариях. Мы рассматриваем разнообразие опубликованных мультимодальных наборов данных предпочтений и обсуждаем, как детали их построения влияют на производительность модели. Основываясь на этих исследованиях, мы представляем новый способ создания мультимодальных данных предпочтений, называемый Сэмплированием галлюцинаций, основанным на предвзятости (BDHS), который не требует дополнительной аннотации или внешних моделей, и показываем, что он может достичь конкурентоспособной производительности по сравнению с ранее опубликованными работами по выравниванию для мультимодальных моделей на ряде бенчмарков.
English
Preference alignment has become a crucial component in enhancing the
performance of Large Language Models (LLMs), yet its impact in Multimodal Large
Language Models (MLLMs) remains comparatively underexplored. Similar to
language models, MLLMs for image understanding tasks encounter challenges like
hallucination. In MLLMs, hallucination can occur not only by stating incorrect
facts but also by producing responses that are inconsistent with the image
content. A primary objective of alignment for MLLMs is to encourage these
models to align responses more closely with image information. Recently,
multiple works have introduced preference datasets for MLLMs and examined
different alignment methods, including Direct Preference Optimization (DPO) and
Proximal Policy Optimization (PPO). However, due to variations in datasets,
base model types, and alignment methods, it remains unclear which specific
elements contribute most significantly to the reported improvements in these
works. In this paper, we independently analyze each aspect of preference
alignment in MLLMs. We start by categorizing the alignment algorithms into two
groups, offline (such as DPO), and online (such as online-DPO), and show that
combining offline and online methods can improve the performance of the model
in certain scenarios. We review a variety of published multimodal preference
datasets and discuss how the details of their construction impact model
performance. Based on these insights, we introduce a novel way of creating
multimodal preference data called Bias-Driven Hallucination Sampling (BDHS)
that needs neither additional annotation nor external models, and show that it
can achieve competitive performance to previously published alignment work for
multimodal models across a range of benchmarks.Summary
AI-Generated Summary