AlignGPT : Modèles de langage multi-modaux à grande échelle avec capacité d'alignement adaptatif
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
May 23, 2024
papers.authors: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande taille (MLLMs) sont largement considérés comme cruciaux dans l'exploration de l'Intelligence Artificielle Générale (AGI). Le cœur des MLLMs réside dans leur capacité à réaliser un alignement intermodal. Pour atteindre cet objectif, les MLLMs actuels suivent généralement un paradigme d'entraînement en deux phases : la phase de pré-entraînement et la phase de réglage par instructions. Malgré leur succès, il existe des lacunes dans la modélisation des capacités d'alignement au sein de ces modèles. Premièrement, lors de la phase de pré-entraînement, le modèle suppose généralement que toutes les paires image-texte sont uniformément alignées, alors qu'en réalité, le degré d'alignement entre les différentes paires image-texte est incohérent. Deuxièmement, les instructions actuellement utilisées pour le réglage incorporent une variété de tâches, et les instructions de différentes tâches nécessitent généralement des niveaux de capacités d'alignement différents, mais les MLLMs précédents négligent ces besoins d'alignement différenciés. Pour résoudre ces problèmes, nous proposons un nouveau modèle de langage multimodal de grande taille, AlignGPT. Dans la phase de pré-entraînement, au lieu de traiter toutes les paires image-texte de manière égale, nous attribuons différents niveaux de capacités d'alignement à différentes paires image-texte. Ensuite, dans la phase de réglage par instructions, nous combinons de manière adaptative ces différents niveaux de capacités d'alignement pour répondre aux besoins dynamiques d'alignement des différentes instructions. Les résultats expérimentaux approfondis montrent que notre modèle atteint des performances compétitives sur 12 benchmarks.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in
the exploration of Artificial General Intelligence (AGI). The core of MLLMs
lies in their capability to achieve cross-modal alignment. To attain this goal,
current MLLMs typically follow a two-phase training paradigm: the pre-training
phase and the instruction-tuning phase. Despite their success, there are
shortcomings in the modeling of alignment capabilities within these models.
Firstly, during the pre-training phase, the model usually assumes that all
image-text pairs are uniformly aligned, but in fact the degree of alignment
between different image-text pairs is inconsistent. Secondly, the instructions
currently used for finetuning incorporate a variety of tasks, different tasks's
instructions usually require different levels of alignment capabilities, but
previous MLLMs overlook these differentiated alignment needs. To tackle these
issues, we propose a new multimodal large language model AlignGPT. In the
pre-training stage, instead of treating all image-text pairs equally, we assign
different levels of alignment capabilities to different image-text pairs. Then,
in the instruction-tuning phase, we adaptively combine these different levels
of alignment capabilities to meet the dynamic alignment needs of different
instructions. Extensive experimental results show that our model achieves
competitive performance on 12 benchmarks.