AlignGPT: Modelos de Linguagem Multimodais de Grande Escala com Capacidade de Alinhamento Adaptativo
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
May 23, 2024
Autores: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são amplamente considerados cruciais na exploração da Inteligência Artificial Geral (AGI). O cerne dos MLLMs reside em sua capacidade de alcançar o alinhamento entre modalidades. Para atingir esse objetivo, os MLLMs atuais geralmente seguem um paradigma de treinamento em duas fases: a fase de pré-treinamento e a fase de ajuste por instrução. Apesar de seu sucesso, há deficiências na modelagem das capacidades de alinhamento nesses modelos. Primeiramente, durante a fase de pré-treinamento, o modelo geralmente assume que todos os pares imagem-texto estão uniformemente alinhados, mas, na verdade, o grau de alinhamento entre diferentes pares imagem-texto é inconsistente. Em segundo lugar, as instruções atualmente usadas para o ajuste fino incorporam uma variedade de tarefas, e as instruções de diferentes tarefas geralmente exigem diferentes níveis de capacidade de alinhamento, mas os MLLMs anteriores ignoram essas necessidades diferenciadas de alinhamento. Para abordar essas questões, propomos um novo modelo de linguagem multimodal de grande escala, o AlignGPT. Na etapa de pré-treinamento, em vez de tratar todos os pares imagem-texto de forma igual, atribuímos diferentes níveis de capacidade de alinhamento a diferentes pares imagem-texto. Em seguida, na fase de ajuste por instrução, combinamos adaptativamente esses diferentes níveis de capacidade de alinhamento para atender às necessidades dinâmicas de alinhamento de diferentes instruções. Resultados experimentais extensivos mostram que nosso modelo alcança desempenho competitivo em 12 benchmarks.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in
the exploration of Artificial General Intelligence (AGI). The core of MLLMs
lies in their capability to achieve cross-modal alignment. To attain this goal,
current MLLMs typically follow a two-phase training paradigm: the pre-training
phase and the instruction-tuning phase. Despite their success, there are
shortcomings in the modeling of alignment capabilities within these models.
Firstly, during the pre-training phase, the model usually assumes that all
image-text pairs are uniformly aligned, but in fact the degree of alignment
between different image-text pairs is inconsistent. Secondly, the instructions
currently used for finetuning incorporate a variety of tasks, different tasks's
instructions usually require different levels of alignment capabilities, but
previous MLLMs overlook these differentiated alignment needs. To tackle these
issues, we propose a new multimodal large language model AlignGPT. In the
pre-training stage, instead of treating all image-text pairs equally, we assign
different levels of alignment capabilities to different image-text pairs. Then,
in the instruction-tuning phase, we adaptively combine these different levels
of alignment capabilities to meet the dynamic alignment needs of different
instructions. Extensive experimental results show that our model achieves
competitive performance on 12 benchmarks.