ChatPaper.aiChatPaper

Lumina-mGPT : Illuminer la génération flexible et photoréaliste d'images à partir de texte grâce à un prétraitement génératif multimodal

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

August 5, 2024
Auteurs: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI

Résumé

Nous présentons Lumina-mGPT, une famille de modèles autorégressifs multimodaux capables de réaliser diverses tâches visuelles et linguistiques, excellant particulièrement dans la génération d'images photoréalistes flexibles à partir de descriptions textuelles. Contrairement aux approches existantes de génération d'images autorégressives, Lumina-mGPT utilise un transformeur décodeur uniquement préentraîné comme cadre unifié pour modéliser des séquences de tokens multimodaux. Notre idée clé est qu'un simple transformeur décodeur uniquement avec un préentraînement génératif multimodal (mGPT), utilisant l'objectif de prédiction du token suivant sur des séquences massives entrelacées de texte et d'images, peut acquérir des capacités multimodales étendues et générales, éclairant ainsi la génération photoréaliste de texte à image. En nous appuyant sur ces modèles préentraînés, nous proposons un Fine-Tuning Supervisé Progressif Flexible (FP-SFT) sur des paires image-texte de haute qualité pour débloquer pleinement leur potentiel de synthèse d'images à haute esthétique à n'importe quelle résolution, tout en conservant leurs capacités multimodales générales. De plus, nous introduisons le Fine-Tuning Supervisé Omnipotent (Omni-SFT), transformant Lumina-mGPT en un modèle fondateur qui réalise de manière fluide l'unification omnipotente des tâches. Le modèle résultant démontre des capacités multimodales polyvalentes, incluant des tâches de génération visuelle comme la génération flexible de texte à image et la génération contrôlée, des tâches de reconnaissance visuelle comme la segmentation et l'estimation de profondeur, et des tâches vision-langage comme le question-réponse visuel multitour. Par ailleurs, nous analysons les différences et similitudes entre les méthodes basées sur la diffusion et les méthodes autorégressives dans une comparaison directe.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.

Summary

AI-Generated Summary

PDF362November 28, 2024