Alineación de Modelos de Lenguaje Multimodales con las Preferencias Humanas: Una Revisión
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
Autores: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden manejar una amplia variedad de tareas generales con indicaciones simples, sin necesidad de entrenamiento específico para cada tarea. Los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés), construidos sobre los LLMs, han demostrado un potencial impresionante para abordar tareas complejas que involucran datos visuales, auditivos y textuales. Sin embargo, cuestiones críticas relacionadas con la veracidad, la seguridad, el razonamiento similar al humano y la alineación con las preferencias humanas siguen sin abordarse adecuadamente. Esta brecha ha impulsado la aparición de diversos algoritmos de alineación, cada uno dirigido a diferentes escenarios de aplicación y objetivos de optimización. Estudios recientes han demostrado que los algoritmos de alineación son un enfoque poderoso para resolver los desafíos mencionados. En este artículo, nuestro objetivo es proporcionar una revisión exhaustiva y sistemática de los algoritmos de alineación para MLLMs. Específicamente, exploramos cuatro aspectos clave: (1) los escenarios de aplicación cubiertos por los algoritmos de alineación, incluyendo la comprensión general de imágenes, múltiples imágenes, video y audio, y aplicaciones multimodales extendidas; (2) los factores centrales en la construcción de conjuntos de datos de alineación, incluyendo fuentes de datos, respuestas del modelo y anotaciones de preferencias; (3) los puntos de referencia utilizados para evaluar los algoritmos de alineación; y (4) una discusión sobre posibles direcciones futuras para el desarrollo de algoritmos de alineación. Este trabajo busca ayudar a los investigadores a organizar los avances actuales en el campo e inspirar mejores métodos de alineación. La página del proyecto de este artículo está disponible en https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary