NExT-GPT:任意対任意マルチモーダルLLM
NExT-GPT: Any-to-Any Multimodal LLM
September 11, 2023
著者: Shengqiong Wu, Hao Fei, Leigang Qu, Wei Ji, Tat-Seng Chua
cs.AI
要旨
近年、マルチモーダル大規模言語モデル(MM-LLMs)は目覚ましい進歩を遂げていますが、その多くは入力側のマルチモーダル理解に限定されており、複数のモダリティでコンテンツを生成する能力を持っていません。私たち人間は常にさまざまなモダリティを通じて世界を認識し、他者とコミュニケーションを取るため、あらゆるモダリティでコンテンツを受け取り、提供できるany-to-any MM-LLMsの開発は、人間レベルのAIを実現する上で不可欠です。このギャップを埋めるため、我々はエンドツーエンドの汎用any-to-any MM-LLMシステムであるNExT-GPTを提案します。NExT-GPTは、LLMをマルチモーダルアダプターと異なるディフュージョンデコーダーと接続し、テキスト、画像、動画、音声の任意の組み合わせで入力を認識し、出力を生成できるようにします。既存の高性能なエンコーダーとデコーダーを活用することで、NExT-GPTは特定の投影層のわずかなパラメータ(1%)のみをチューニングし、低コストでのトレーニングを実現するとともに、より多くの潜在的なモダリティへの拡張を容易にします。さらに、モダリティ切り替え指示チューニング(MosIT)を導入し、MosIT用の高品質なデータセットを手作業で作成しました。これに基づいて、NExT-GPTは複雑なクロスモーダルセマンティック理解とコンテンツ生成の能力を獲得します。全体として、本研究は、普遍的なモダリティをモデル化できるAIエージェントを構築する可能性を示しており、コミュニティにおけるより人間らしいAI研究の道を切り開くものです。
English
While recently Multimodal Large Language Models (MM-LLMs) have made exciting
strides, they mostly fall prey to the limitation of only input-side multimodal
understanding, without the ability to produce content in multiple modalities.
As we humans always perceive the world and communicate with people through
various modalities, developing any-to-any MM-LLMs capable of accepting and
delivering content in any modality becomes essential to human-level AI. To fill
the gap, we present an end-to-end general-purpose any-to-any MM-LLM system,
NExT-GPT. We connect an LLM with multimodal adaptors and different diffusion
decoders, enabling NExT-GPT to perceive inputs and generate outputs in
arbitrary combinations of text, images, videos, and audio. By leveraging the
existing well-trained highly-performing encoders and decoders, NExT-GPT is
tuned with only a small amount of parameter (1%) of certain projection layers,
which not only benefits low-cost training and also facilitates convenient
expansion to more potential modalities. Moreover, we introduce a
modality-switching instruction tuning (MosIT) and manually curate a
high-quality dataset for MosIT, based on which NExT-GPT is empowered with
complex cross-modal semantic understanding and content generation. Overall, our
research showcases the promising possibility of building an AI agent capable of
modeling universal modalities, paving the way for more human-like AI research
in the community.