Allineamento di Modelli Linguistici Multimodali alle Preferenze Umane: Una Rassegna
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
Autori: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
Abstract
I grandi modelli linguistici (LLM) possono gestire un'ampia varietà di compiti generali con semplici prompt, senza la necessità di un addestramento specifico per ogni task. I Modelli Linguistici Multimodali (MLLM), costruiti sugli LLM, hanno dimostrato un potenziale impressionante nell'affrontare compiti complessi che coinvolgono dati visivi, uditivi e testuali. Tuttavia, questioni critiche relative alla veridicità, alla sicurezza, al ragionamento di tipo o1 e all'allineamento con le preferenze umane rimangono insufficientemente affrontate. Questa lacuna ha stimolato l'emergere di vari algoritmi di allineamento, ciascuno mirato a diversi scenari applicativi e obiettivi di ottimizzazione. Studi recenti hanno dimostrato che gli algoritmi di allineamento rappresentano un approccio potente per risolvere le sfide sopra menzionate. In questo articolo, miriamo a fornire una revisione completa e sistematica degli algoritmi di allineamento per gli MLLM. Nello specifico, esploriamo quattro aspetti chiave: (1) gli scenari applicativi coperti dagli algoritmi di allineamento, inclusa la comprensione generale delle immagini, multi-immagine, video e audio, e le applicazioni multimodali estese; (2) i fattori fondamentali nella costruzione di dataset di allineamento, incluse le fonti dei dati, le risposte del modello e le annotazioni delle preferenze; (3) i benchmark utilizzati per valutare gli algoritmi di allineamento; e (4) una discussione sulle potenziali direzioni future per lo sviluppo degli algoritmi di allineamento. Questo lavoro cerca di aiutare i ricercatori a organizzare i progressi attuali nel campo e ispirare metodi di allineamento migliori. La pagina del progetto di questo articolo è disponibile all'indirizzo https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.