AlignGPT: Modelos de Lenguaje de Gran Escala Multimodales con Capacidad de Alineación Adaptativa
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
May 23, 2024
Autores: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) son ampliamente considerados como cruciales en la exploración de la Inteligencia General Artificial (AGI). El núcleo de los MLLMs radica en su capacidad para lograr una alineación multimodal. Para alcanzar este objetivo, los MLLMs actuales suelen seguir un paradigma de entrenamiento en dos fases: la fase de preentrenamiento y la fase de ajuste por instrucciones. A pesar de su éxito, existen deficiencias en la modelización de las capacidades de alineación dentro de estos modelos. En primer lugar, durante la fase de preentrenamiento, el modelo generalmente asume que todos los pares de imagen-texto están uniformemente alineados, pero, de hecho, el grado de alineación entre diferentes pares de imagen-texto es inconsistente. En segundo lugar, las instrucciones utilizadas actualmente para el ajuste incorporan una variedad de tareas, y las instrucciones de diferentes tareas suelen requerir diferentes niveles de capacidades de alineación, pero los MLLMs anteriores pasan por alto estas necesidades de alineación diferenciadas. Para abordar estos problemas, proponemos un nuevo modelo de lenguaje multimodal de gran escala llamado AlignGPT. En la etapa de preentrenamiento, en lugar de tratar todos los pares de imagen-texto por igual, asignamos diferentes niveles de capacidades de alineación a diferentes pares de imagen-texto. Luego, en la fase de ajuste por instrucciones, combinamos de manera adaptativa estos diferentes niveles de capacidades de alineación para satisfacer las necesidades dinámicas de alineación de diferentes instrucciones. Los resultados experimentales extensos muestran que nuestro modelo logra un rendimiento competitivo en 12 benchmarks.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in
the exploration of Artificial General Intelligence (AGI). The core of MLLMs
lies in their capability to achieve cross-modal alignment. To attain this goal,
current MLLMs typically follow a two-phase training paradigm: the pre-training
phase and the instruction-tuning phase. Despite their success, there are
shortcomings in the modeling of alignment capabilities within these models.
Firstly, during the pre-training phase, the model usually assumes that all
image-text pairs are uniformly aligned, but in fact the degree of alignment
between different image-text pairs is inconsistent. Secondly, the instructions
currently used for finetuning incorporate a variety of tasks, different tasks's
instructions usually require different levels of alignment capabilities, but
previous MLLMs overlook these differentiated alignment needs. To tackle these
issues, we propose a new multimodal large language model AlignGPT. In the
pre-training stage, instead of treating all image-text pairs equally, we assign
different levels of alignment capabilities to different image-text pairs. Then,
in the instruction-tuning phase, we adaptively combine these different levels
of alignment capabilities to meet the dynamic alignment needs of different
instructions. Extensive experimental results show that our model achieves
competitive performance on 12 benchmarks.