Comprendiendo la Alineación en LLMs Multimodales: Un Estudio Exhaustivo
Understanding Alignment in Multimodal LLMs: A Comprehensive Study
July 2, 2024
Autores: Elmira Amirloo, Jean-Philippe Fauconnier, Christoph Roesmann, Christian Kerl, Rinu Boney, Yusu Qian, Zirui Wang, Afshin Dehghan, Yinfei Yang, Zhe Gan, Peter Grasch
cs.AI
Resumen
La alineación de preferencias se ha convertido en un componente crucial para mejorar el rendimiento de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés), sin embargo, su impacto en los Modelos de Lenguaje Grandes Multimodales (MLLMs) sigue siendo relativamente poco explorado. Al igual que los modelos de lenguaje, los MLLMs para tareas de comprensión de imágenes enfrentan desafíos como la alucinación. En los MLLMs, la alucinación puede ocurrir no solo al declarar hechos incorrectos, sino también al producir respuestas que son inconsistentes con el contenido de la imagen. Un objetivo principal de la alineación para MLLMs es fomentar que estos modelos alineen las respuestas de manera más cercana a la información de la imagen. Recientemente, varios trabajos han introducido conjuntos de datos de preferencias para MLLMs y han examinado diferentes métodos de alineación, incluyendo la Optimización Directa de Preferencias (DPO) y la Optimización de Política Proximal (PPO). Sin embargo, debido a variaciones en los conjuntos de datos, tipos de modelos base y métodos de alineación, sigue sin estar claro qué elementos específicos contribuyen de manera más significativa a las mejoras reportadas en estos trabajos. En este documento, analizamos de manera independiente cada aspecto de la alineación de preferencias en MLLMs. Comenzamos categorizando los algoritmos de alineación en dos grupos, offline (como DPO) y online (como online-DPO), y demostramos que combinar métodos offline y online puede mejorar el rendimiento del modelo en ciertos escenarios. Revisamos una variedad de conjuntos de datos de preferencias multimodales publicados y discutimos cómo los detalles de su construcción impactan en el rendimiento del modelo. Basándonos en estas percepciones, introducimos una nueva forma de crear datos de preferencias multimodales llamada Muestreo de Alucinación Dirigida por Sesgo (BDHS) que no requiere anotaciones adicionales ni modelos externos, y demostramos que puede lograr un rendimiento competitivo con respecto a trabajos de alineación previamente publicados para modelos multimodales en una variedad de pruebas comparativas.
English
Preference alignment has become a crucial component in enhancing the
performance of Large Language Models (LLMs), yet its impact in Multimodal Large
Language Models (MLLMs) remains comparatively underexplored. Similar to
language models, MLLMs for image understanding tasks encounter challenges like
hallucination. In MLLMs, hallucination can occur not only by stating incorrect
facts but also by producing responses that are inconsistent with the image
content. A primary objective of alignment for MLLMs is to encourage these
models to align responses more closely with image information. Recently,
multiple works have introduced preference datasets for MLLMs and examined
different alignment methods, including Direct Preference Optimization (DPO) and
Proximal Policy Optimization (PPO). However, due to variations in datasets,
base model types, and alignment methods, it remains unclear which specific
elements contribute most significantly to the reported improvements in these
works. In this paper, we independently analyze each aspect of preference
alignment in MLLMs. We start by categorizing the alignment algorithms into two
groups, offline (such as DPO), and online (such as online-DPO), and show that
combining offline and online methods can improve the performance of the model
in certain scenarios. We review a variety of published multimodal preference
datasets and discuss how the details of their construction impact model
performance. Based on these insights, we introduce a novel way of creating
multimodal preference data called Bias-Driven Hallucination Sampling (BDHS)
that needs neither additional annotation nor external models, and show that it
can achieve competitive performance to previously published alignment work for
multimodal models across a range of benchmarks.Summary
AI-Generated Summary