Lumina-mGPT:マルチモーダル生成事前学習による柔軟なフォトリアルなテキスト-to-画像生成の実現
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
August 5, 2024
著者: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI
要旨
本論文では、Lumina-mGPTを紹介します。これは、様々な視覚と言語タスクに対応可能なマルチモーダル自己回帰モデルのファミリーであり、特にテキスト記述から柔軟なフォトリアリスティックな画像を生成する能力に優れています。既存の自己回帰的画像生成アプローチとは異なり、Lumina-mGPTは、マルチモーダルトークンシーケンスをモデル化するための統一フレームワークとして、事前学習済みのデコーダのみのトランスフォーマーを採用しています。私たちの重要な洞察は、大規模なテキストと画像のインタリーブされたシーケンスに対して次のトークン予測目標を利用したマルチモーダル生成事前学習(mGPT)を施したシンプルなデコーダのみのトランスフォーマーが、広範で一般的なマルチモーダル能力を学習し、それによってフォトリアリスティックなテキストから画像への生成を実現できるということです。これらの事前学習済みモデルを基盤として、高品質な画像とテキストのペアに対して柔軟なプログレッシブ教師ありファインチューニング(FP-SFT)を提案し、一般的なマルチモーダル能力を維持しながら、任意の解像度での高審美性な画像合成の可能性を最大限に引き出します。さらに、オムニポーネント教師ありファインチューニング(Omni-SFT)を導入し、Lumina-mGPTをオムニポーテントなタスク統合をシームレスに達成する基盤モデルに変革します。結果として得られたモデルは、柔軟なテキストから画像への生成や制御可能な生成といった視覚生成タスク、セグメンテーションや深度推定といった視覚認識タスク、マルチターンの視覚質問応答といった視覚言語タスクを含む、多様なマルチモーダル能力を実証します。加えて、拡散ベースの手法と自己回帰的手法の違いと類似点を直接比較して分析します。
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable
of various vision and language tasks, particularly excelling in generating
flexible photorealistic images from text descriptions. Unlike existing
autoregressive image generation approaches, Lumina-mGPT employs a pretrained
decoder-only transformer as a unified framework for modeling multimodal token
sequences. Our key insight is that a simple decoder-only transformer with
multimodal Generative PreTraining (mGPT), utilizing the next-token prediction
objective on massive interleaved text-image sequences, can learn broad and
general multimodal capabilities, thereby illuminating photorealistic
text-to-image generation. Building on these pretrained models, we propose
Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text
pairs to fully unlock their potential for high-aesthetic image synthesis at any
resolution while maintaining their general multimodal capabilities.
Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT),
transforming Lumina-mGPT into a foundation model that seamlessly achieves
omnipotent task unification. The resulting model demonstrates versatile
multimodal capabilities, including visual generation tasks like flexible
text-to-image generation and controllable generation, visual recognition tasks
like segmentation and depth estimation, and vision-language tasks like
multiturn visual question answering. Additionally, we analyze the differences
and similarities between diffusion-based and autoregressive methods in a direct
comparison.Summary
AI-Generated Summary