AlignGPT: Multimodale große Sprachmodelle mit adaptiver Ausrichtungsfähigkeit
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
May 23, 2024
Autoren: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) gelten weithin als entscheidend für die Erforschung der Künstlichen Allgemeinen Intelligenz (AGI). Der Kern der MLLMs liegt in ihrer Fähigkeit, eine kreuzmodale Ausrichtung zu erreichen. Um dieses Ziel zu erreichen, folgen aktuelle MLLMs in der Regel einem Zwei-Phasen-Trainingsparadigma: der Vor-Trainingsphase und der Anweisungsfeinabstimmungsphase. Trotz ihres Erfolgs gibt es Mängel bei der Modellierung von Ausrichtungsfähigkeiten innerhalb dieser Modelle. Erstens geht das Modell während der Vor-Trainingsphase in der Regel davon aus, dass alle Bild-Text-Paare gleichmäßig ausgerichtet sind, aber tatsächlich ist der Grad der Ausrichtung zwischen verschiedenen Bild-Text-Paaren inkonsistent. Zweitens berücksichtigen die derzeit verwendeten Anweisungen für die Feinabstimmung eine Vielzahl von Aufgaben; die Anweisungen verschiedener Aufgaben erfordern in der Regel unterschiedliche Ebenen von Ausrichtungsfähigkeiten, aber bisher haben frühere MLLMs diese differenzierten Ausrichtungsbedürfnisse übersehen. Um diese Probleme anzugehen, schlagen wir ein neues multimodales großes Sprachmodell AlignGPT vor. In der Vor-Trainingsphase weisen wir anstatt alle Bild-Text-Paare gleich zu behandeln, verschiedenen Bild-Text-Paaren unterschiedliche Ebenen von Ausrichtungsfähigkeiten zu. Dann kombinieren wir in der Anweisungsfeinabstimmungsphase adaptiv diese verschiedenen Ebenen von Ausrichtungsfähigkeiten, um den dynamischen Ausrichtungsbedürfnissen unterschiedlicher Anweisungen gerecht zu werden. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Modell eine wettbewerbsfähige Leistung auf 12 Benchmarks erzielt.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in
the exploration of Artificial General Intelligence (AGI). The core of MLLMs
lies in their capability to achieve cross-modal alignment. To attain this goal,
current MLLMs typically follow a two-phase training paradigm: the pre-training
phase and the instruction-tuning phase. Despite their success, there are
shortcomings in the modeling of alignment capabilities within these models.
Firstly, during the pre-training phase, the model usually assumes that all
image-text pairs are uniformly aligned, but in fact the degree of alignment
between different image-text pairs is inconsistent. Secondly, the instructions
currently used for finetuning incorporate a variety of tasks, different tasks's
instructions usually require different levels of alignment capabilities, but
previous MLLMs overlook these differentiated alignment needs. To tackle these
issues, we propose a new multimodal large language model AlignGPT. In the
pre-training stage, instead of treating all image-text pairs equally, we assign
different levels of alignment capabilities to different image-text pairs. Then,
in the instruction-tuning phase, we adaptively combine these different levels
of alignment capabilities to meet the dynamic alignment needs of different
instructions. Extensive experimental results show that our model achieves
competitive performance on 12 benchmarks.Summary
AI-Generated Summary