Alinhamento de LLMs Multimodais com Preferências Humanas: Uma Revisão
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
Autores: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) podem lidar com uma ampla variedade de tarefas gerais com prompts simples, sem a necessidade de treinamento específico para cada tarefa. Modelos Multimodais de Linguagem de Grande Escala (MLLMs), construídos sobre LLMs, demonstraram um potencial impressionante no enfrentamento de tarefas complexas envolvendo dados visuais, auditivos e textuais. No entanto, questões críticas relacionadas à veracidade, segurança, raciocínio semelhante ao humano e alinhamento com as preferências humanas permanecem insuficientemente abordadas. Essa lacuna impulsionou o surgimento de diversos algoritmos de alinhamento, cada um visando diferentes cenários de aplicação e objetivos de otimização. Estudos recentes mostraram que algoritmos de alinhamento são uma abordagem poderosa para resolver os desafios mencionados. Neste artigo, buscamos fornecer uma revisão abrangente e sistemática dos algoritmos de alinhamento para MLLMs. Especificamente, exploramos quatro aspectos-chave: (1) os cenários de aplicação cobertos pelos algoritmos de alinhamento, incluindo compreensão geral de imagens, múltiplas imagens, vídeo e áudio, e aplicações multimodais estendidas; (2) os fatores centrais na construção de conjuntos de dados de alinhamento, incluindo fontes de dados, respostas do modelo e anotações de preferência; (3) os benchmarks utilizados para avaliar algoritmos de alinhamento; e (4) uma discussão sobre possíveis direções futuras para o desenvolvimento de algoritmos de alinhamento. Este trabalho busca ajudar pesquisadores a organizar os avanços atuais no campo e inspirar melhores métodos de alinhamento. A página do projeto deste artigo está disponível em https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary