ChatPaper.aiChatPaper

AlignGPT:適応的アライメント能力を備えたマルチモーダル大規模言語モデル

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

May 23, 2024
著者: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、人工汎用知能(AGI)の探求において重要な役割を果たすと広く認識されています。MLLMsの核心は、異なるモダリティ間のアラインメントを実現する能力にあります。この目標を達成するため、現在のMLLMsは通常、事前学習フェーズと指示チューニングフェーズという2段階のトレーニングパラダイムに従います。しかし、これらのモデルにおけるアラインメント能力のモデリングには欠点があります。まず、事前学習フェーズでは、モデルは通常、すべての画像-テキストペアが均一にアラインメントされていると仮定しますが、実際には異なる画像-テキストペア間のアラインメントの程度は一貫していません。次に、現在使用されているチューニング用の指示にはさまざまなタスクが含まれており、異なるタスクの指示は通常、異なるレベルのアラインメント能力を必要としますが、従来のMLLMsはこれらの差異化されたアラインメントニーズを見落としています。これらの問題に対処するため、我々は新しいマルチモーダル大規模言語モデルAlignGPTを提案します。事前学習段階では、すべての画像-テキストペアを均等に扱うのではなく、異なる画像-テキストペアに異なるレベルのアラインメント能力を割り当てます。その後、指示チューニングフェーズでは、これらの異なるレベルのアラインメント能力を適応的に組み合わせて、異なる指示の動的なアラインメントニーズを満たします。大規模な実験結果は、我々のモデルが12のベンチマークで競争力のある性能を達成することを示しています。
English
Multimodal Large Language Models (MLLMs) are widely regarded as crucial in the exploration of Artificial General Intelligence (AGI). The core of MLLMs lies in their capability to achieve cross-modal alignment. To attain this goal, current MLLMs typically follow a two-phase training paradigm: the pre-training phase and the instruction-tuning phase. Despite their success, there are shortcomings in the modeling of alignment capabilities within these models. Firstly, during the pre-training phase, the model usually assumes that all image-text pairs are uniformly aligned, but in fact the degree of alignment between different image-text pairs is inconsistent. Secondly, the instructions currently used for finetuning incorporate a variety of tasks, different tasks's instructions usually require different levels of alignment capabilities, but previous MLLMs overlook these differentiated alignment needs. To tackle these issues, we propose a new multimodal large language model AlignGPT. In the pre-training stage, instead of treating all image-text pairs equally, we assign different levels of alignment capabilities to different image-text pairs. Then, in the instruction-tuning phase, we adaptively combine these different levels of alignment capabilities to meet the dynamic alignment needs of different instructions. Extensive experimental results show that our model achieves competitive performance on 12 benchmarks.

Summary

AI-Generated Summary

PDF140December 15, 2024