Alignement des LLM Multimodaux avec les Préférences Humaines : Une Étude
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
Auteurs: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
Résumé
Les grands modèles de langage (LLMs) peuvent traiter une grande variété de tâches générales avec des instructions simples, sans nécessiter d'entraînement spécifique à une tâche. Les modèles de langage multimodaux (MLLMs), construits sur la base des LLMs, ont démontré un potentiel impressionnant pour aborder des tâches complexes impliquant des données visuelles, auditives et textuelles. Cependant, des problèmes critiques liés à la véracité, à la sécurité, au raisonnement de type o1 et à l'alignement avec les préférences humaines restent insuffisamment résolus. Cette lacune a stimulé l'émergence de divers algorithmes d'alignement, chacun ciblant différents scénarios d'application et objectifs d'optimisation. Des études récentes ont montré que les algorithmes d'alignement constituent une approche puissante pour résoudre les défis mentionnés ci-dessus. Dans cet article, nous visons à fournir une revue complète et systématique des algorithmes d'alignement pour les MLLMs. Plus précisément, nous explorons quatre aspects clés : (1) les scénarios d'application couverts par les algorithmes d'alignement, incluant la compréhension générale d'images, les images multiples, les vidéos et l'audio, ainsi que les applications multimodales étendues ; (2) les facteurs essentiels dans la construction des ensembles de données d'alignement, incluant les sources de données, les réponses des modèles et les annotations de préférence ; (3) les benchmarks utilisés pour évaluer les algorithmes d'alignement ; et (4) une discussion sur les directions futures potentielles pour le développement des algorithmes d'alignement. Ce travail vise à aider les chercheurs à organiser les avancées actuelles dans le domaine et à inspirer de meilleures méthodes d'alignement. La page du projet de cet article est disponible à l'adresse suivante : https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary