다중모달 LLM과 인간 선호도의 정렬: 연구 동향 분석
Aligning Multimodal LLM with Human Preference: A Survey
March 18, 2025
저자: Tao Yu, Yi-Fan Zhang, Chaoyou Fu, Junkang Wu, Jinda Lu, Kun Wang, Xingyu Lu, Yunhang Shen, Guibin Zhang, Dingjie Song, Yibo Yan, Tianlong Xu, Qingsong Wen, Zhang Zhang, Yan Huang, Liang Wang, Tieniu Tan
cs.AI
초록
대규모 언어 모델(LLMs)은 특정 작업에 대한 별도의 학습 없이도 간단한 프롬프트를 통해 다양한 일반적인 작업을 처리할 수 있습니다. LLMs를 기반으로 구축된 다중 모달 대규모 언어 모델(MLLMs)은 시각, 청각, 텍스트 데이터를 포함한 복잡한 작업을 해결하는 데 있어서 인상적인 잠재력을 보여주었습니다. 그러나 진실성, 안전성, 인간과 유사한 추론 능력, 그리고 인간의 선호도와의 정렬과 관련된 중요한 문제들은 여전히 충분히 해결되지 못하고 있습니다. 이러한 격차는 다양한 정렬 알고리즘의 등장을 촉진시켰으며, 각 알고리즘은 서로 다른 응용 시나리오와 최적화 목표를 대상으로 합니다. 최근 연구들은 정렬 알고리즘이 앞서 언급된 과제를 해결하는 데 있어 강력한 접근법임을 보여주었습니다. 본 논문에서는 MLLMs를 위한 정렬 알고리즘에 대한 포괄적이고 체계적인 리뷰를 제공하고자 합니다. 구체적으로, 우리는 (1) 일반적인 이미지 이해, 다중 이미지, 비디오, 오디오 및 확장된 다중 모달 응용을 포함한 정렬 알고리즘의 응용 시나리오, (2) 데이터 소스, 모델 응답, 선호도 주석을 포함한 정렬 데이터셋 구축의 핵심 요소, (3) 정렬 알고리즘을 평가하는 데 사용되는 벤치마크, 그리고 (4) 정렬 알고리즘 개발의 잠재적인 미래 방향에 대한 논의 등 네 가지 주요 측면을 탐구합니다. 이 작업은 연구자들이 해당 분야의 최신 발전을 정리하고 더 나은 정렬 방법을 고안하는 데 도움을 주고자 합니다. 본 논문의 프로젝트 페이지는 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment에서 확인할 수 있습니다.
English
Large language models (LLMs) can handle a wide variety of general tasks with
simple prompts, without the need for task-specific training. Multimodal Large
Language Models (MLLMs), built upon LLMs, have demonstrated impressive
potential in tackling complex tasks involving visual, auditory, and textual
data. However, critical issues related to truthfulness, safety, o1-like
reasoning, and alignment with human preference remain insufficiently addressed.
This gap has spurred the emergence of various alignment algorithms, each
targeting different application scenarios and optimization goals. Recent
studies have shown that alignment algorithms are a powerful approach to
resolving the aforementioned challenges. In this paper, we aim to provide a
comprehensive and systematic review of alignment algorithms for MLLMs.
Specifically, we explore four key aspects: (1) the application scenarios
covered by alignment algorithms, including general image understanding,
multi-image, video, and audio, and extended multimodal applications; (2) the
core factors in constructing alignment datasets, including data sources, model
responses, and preference annotations; (3) the benchmarks used to evaluate
alignment algorithms; and (4) a discussion of potential future directions for
the development of alignment algorithms. This work seeks to help researchers
organize current advancements in the field and inspire better alignment
methods. The project page of this paper is available at
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.Summary
AI-Generated Summary