AlignGPT: Multimodale Large Language Models met Adaptieve Uitlijningscapaciteit
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
May 23, 2024
Auteurs: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI
Samenvatting
Multimodale Large Language Models (MLLMs) worden algemeen beschouwd als cruciaal in de verkenning van Artificial General Intelligence (AGI). De kern van MLLMs ligt in hun vermogen om cross-modale uitlijning te bereiken. Om dit doel te bereiken, volgen huidige MLLMs doorgaans een tweefasig trainingsparadigma: de pre-trainingsfase en de instructie-afstemmingsfase. Ondanks hun succes zijn er tekortkomingen in de modellering van uitlijningsmogelijkheden binnen deze modellen. Ten eerste neemt het model tijdens de pre-trainingsfase meestal aan dat alle beeld-tekstparen uniform zijn uitgelijnd, maar in feite is de mate van uitlijning tussen verschillende beeld-tekstparen inconsistent. Ten tweede omvatten de instructies die momenteel worden gebruikt voor finetuning een verscheidenheid aan taken, waarbij instructies voor verschillende taken meestal verschillende niveaus van uitlijningsmogelijkheden vereisen, maar eerdere MLLMs negeren deze gedifferentieerde uitlijningsbehoeften. Om deze problemen aan te pakken, stellen we een nieuwe multimodale large language model voor, genaamd AlignGPT. In de pre-trainingsfase behandelen we niet alle beeld-tekstparen op dezelfde manier, maar kennen we verschillende niveaus van uitlijningsmogelijkheden toe aan verschillende beeld-tekstparen. Vervolgens combineren we in de instructie-afstemmingsfase deze verschillende niveaus van uitlijningsmogelijkheden adaptief om te voldoen aan de dynamische uitlijningsbehoeften van verschillende instructies. Uitgebreide experimentele resultaten tonen aan dat ons model competitieve prestaties behaalt op 12 benchmarks.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in
the exploration of Artificial General Intelligence (AGI). The core of MLLMs
lies in their capability to achieve cross-modal alignment. To attain this goal,
current MLLMs typically follow a two-phase training paradigm: the pre-training
phase and the instruction-tuning phase. Despite their success, there are
shortcomings in the modeling of alignment capabilities within these models.
Firstly, during the pre-training phase, the model usually assumes that all
image-text pairs are uniformly aligned, but in fact the degree of alignment
between different image-text pairs is inconsistent. Secondly, the instructions
currently used for finetuning incorporate a variety of tasks, different tasks's
instructions usually require different levels of alignment capabilities, but
previous MLLMs overlook these differentiated alignment needs. To tackle these
issues, we propose a new multimodal large language model AlignGPT. In the
pre-training stage, instead of treating all image-text pairs equally, we assign
different levels of alignment capabilities to different image-text pairs. Then,
in the instruction-tuning phase, we adaptively combine these different levels
of alignment capabilities to meet the dynamic alignment needs of different
instructions. Extensive experimental results show that our model achieves
competitive performance on 12 benchmarks.