ChatPaper.aiChatPaper

AlignGPT: 적응형 정렬 기능을 갖춘 다중 모달 대규모 언어 모델

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

May 23, 2024
저자: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI

초록

멀티모달 대형 언어 모델(MLLMs)은 인공 일반 지능(AGI) 탐구에 있어 핵심적인 역할을 하는 것으로 널리 인정받고 있습니다. MLLMs의 핵심은 크로스모달 정렬 능력을 달성하는 데 있습니다. 이를 위해 현재의 MLLMs는 일반적으로 두 단계의 학습 패러다임을 따릅니다: 사전 학습 단계와 지시어 튜닝 단계입니다. 이러한 모델들이 성공을 거두었음에도 불구하고, 정렬 능력 모델링에는 몇 가지 단점이 존재합니다. 첫째, 사전 학습 단계에서 모델은 모든 이미지-텍스트 쌍이 균일하게 정렬되어 있다고 가정하지만, 실제로는 서로 다른 이미지-텍스트 쌍 간의 정렬 정도가 일관되지 않습니다. 둘째, 현재 미세 조정에 사용되는 지시어들은 다양한 작업을 포함하고 있으며, 서로 다른 작업의 지시어들은 일반적으로 서로 다른 수준의 정렬 능력을 요구하지만, 기존의 MLLMs는 이러한 차별화된 정렬 요구를 간과했습니다. 이러한 문제를 해결하기 위해, 우리는 새로운 멀티모달 대형 언어 모델인 AlignGPT를 제안합니다. 사전 학습 단계에서 모든 이미지-텍스트 쌍을 동일하게 취급하는 대신, 서로 다른 이미지-텍스트 쌍에 대해 서로 다른 수준의 정렬 능력을 부여합니다. 그런 다음, 지시어 튜닝 단계에서는 이러한 서로 다른 수준의 정렬 능력을 적응적으로 결합하여 다양한 지시어의 동적 정렬 요구를 충족시킵니다. 광범위한 실험 결과는 우리의 모델이 12개의 벤치마크에서 경쟁력 있는 성능을 달성함을 보여줍니다.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in the exploration of Artificial General Intelligence (AGI). The core of MLLMs lies in their capability to achieve cross-modal alignment. To attain this goal, current MLLMs typically follow a two-phase training paradigm: the pre-training phase and the instruction-tuning phase. Despite their success, there are shortcomings in the modeling of alignment capabilities within these models. Firstly, during the pre-training phase, the model usually assumes that all image-text pairs are uniformly aligned, but in fact the degree of alignment between different image-text pairs is inconsistent. Secondly, the instructions currently used for finetuning incorporate a variety of tasks, different tasks's instructions usually require different levels of alignment capabilities, but previous MLLMs overlook these differentiated alignment needs. To tackle these issues, we propose a new multimodal large language model AlignGPT. In the pre-training stage, instead of treating all image-text pairs equally, we assign different levels of alignment capabilities to different image-text pairs. Then, in the instruction-tuning phase, we adaptively combine these different levels of alignment capabilities to meet the dynamic alignment needs of different instructions. Extensive experimental results show that our model achieves competitive performance on 12 benchmarks.

Summary

AI-Generated Summary

PDF140December 15, 2024