AlignGPT: Modelli Linguistici Multimodali di Grande Scala con Capacità di Allineamento Adattivo
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
May 23, 2024
Autori: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) sono ampiamente considerati cruciali nell'esplorazione dell'Intelligenza Artificiale Generale (AGI). Il nucleo degli MLLMs risiede nella loro capacità di raggiungere un allineamento cross-modale. Per raggiungere questo obiettivo, gli attuali MLLMs seguono tipicamente un paradigma di addestramento in due fasi: la fase di pre-addestramento e la fase di ottimizzazione su istruzioni. Nonostante il loro successo, ci sono carenze nella modellazione delle capacità di allineamento all'interno di questi modelli. In primo luogo, durante la fase di pre-addestramento, il modello di solito assume che tutte le coppie immagine-testo siano uniformemente allineate, ma in realtà il grado di allineamento tra diverse coppie immagine-testo è incoerente. In secondo luogo, le istruzioni attualmente utilizzate per il fine-tuning incorporano una varietà di compiti, e le istruzioni di compiti diversi richiedono solitamente diversi livelli di capacità di allineamento, ma i precedenti MLLMs trascurano queste esigenze di allineamento differenziate. Per affrontare questi problemi, proponiamo un nuovo modello linguistico multimodale di grande scala, AlignGPT. Nella fase di pre-addestramento, invece di trattare tutte le coppie immagine-testo allo stesso modo, assegniamo diversi livelli di capacità di allineamento a diverse coppie immagine-testo. Poi, nella fase di ottimizzazione su istruzioni, combiniamo in modo adattivo questi diversi livelli di capacità di allineamento per soddisfare le esigenze dinamiche di allineamento di diverse istruzioni. I risultati sperimentali estesi mostrano che il nostro modello raggiunge prestazioni competitive su 12 benchmark.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in
the exploration of Artificial General Intelligence (AGI). The core of MLLMs
lies in their capability to achieve cross-modal alignment. To attain this goal,
current MLLMs typically follow a two-phase training paradigm: the pre-training
phase and the instruction-tuning phase. Despite their success, there are
shortcomings in the modeling of alignment capabilities within these models.
Firstly, during the pre-training phase, the model usually assumes that all
image-text pairs are uniformly aligned, but in fact the degree of alignment
between different image-text pairs is inconsistent. Secondly, the instructions
currently used for finetuning incorporate a variety of tasks, different tasks's
instructions usually require different levels of alignment capabilities, but
previous MLLMs overlook these differentiated alignment needs. To tackle these
issues, we propose a new multimodal large language model AlignGPT. In the
pre-training stage, instead of treating all image-text pairs equally, we assign
different levels of alignment capabilities to different image-text pairs. Then,
in the instruction-tuning phase, we adaptively combine these different levels
of alignment capabilities to meet the dynamic alignment needs of different
instructions. Extensive experimental results show that our model achieves
competitive performance on 12 benchmarks.