AlignGPT: Много몿ельные большие языковые модели с адаптивной способностью выравнивания
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
May 23, 2024
Авторы: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI
Аннотация
Многомодельные модели с большим языковым объемом (MLLM) широко признаются как ключевые в исследовании искусственного общего интеллекта (AGI). Основа MLLM заключается в их способности достигать кросс-модального выравнивания. Для достижения этой цели текущие MLLM обычно следуют двухфазной парадигме обучения: фазе предварительного обучения и фазе настройки инструкций. Несмотря на их успех, существуют недостатки в моделировании возможностей выравнивания в этих моделях. Во-первых, во время предварительного обучения модель обычно предполагает, что все пары изображение-текст равномерно выровнены, но на самом деле степень выравнивания между различными парами изображение-текст неоднородна. Во-вторых, используемые в настоящее время инструкции для донастройки включают различные задачи, инструкции различных задач обычно требуют различных уровней возможностей выравнивания, но предыдущие MLLM не учитывают эти дифференцированные потребности в выравнивании. Для решения этих проблем мы предлагаем новую многомодельную модель с большим языковым объемом AlignGPT. На этапе предварительного обучения, вместо того чтобы рассматривать все пары изображение-текст равнозначно, мы назначаем разные уровни возможностей выравнивания различным парам изображение-текст. Затем на этапе настройки инструкций мы адаптивно комбинируем эти разные уровни возможностей выравнивания, чтобы удовлетворить динамические потребности в выравнивании различных инструкций. Обширные экспериментальные результаты показывают, что наша модель достигает конкурентоспособной производительности на 12 бенчмарках.
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in
the exploration of Artificial General Intelligence (AGI). The core of MLLMs
lies in their capability to achieve cross-modal alignment. To attain this goal,
current MLLMs typically follow a two-phase training paradigm: the pre-training
phase and the instruction-tuning phase. Despite their success, there are
shortcomings in the modeling of alignment capabilities within these models.
Firstly, during the pre-training phase, the model usually assumes that all
image-text pairs are uniformly aligned, but in fact the degree of alignment
between different image-text pairs is inconsistent. Secondly, the instructions
currently used for finetuning incorporate a variety of tasks, different tasks's
instructions usually require different levels of alignment capabilities, but
previous MLLMs overlook these differentiated alignment needs. To tackle these
issues, we propose a new multimodal large language model AlignGPT. In the
pre-training stage, instead of treating all image-text pairs equally, we assign
different levels of alignment capabilities to different image-text pairs. Then,
in the instruction-tuning phase, we adaptively combine these different levels
of alignment capabilities to meet the dynamic alignment needs of different
instructions. Extensive experimental results show that our model achieves
competitive performance on 12 benchmarks.