Lumina-mGPT: Illuminare la Generazione Fotorealistica Flessibile da Testo a Immagine con Pretraining Generativo Multimodale
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
August 5, 2024
Autori: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI
Abstract
Presentiamo Lumina-mGPT, una famiglia di modelli autoregressivi multimodali in grado di svolgere varie attività di visione e linguaggio, con particolare eccellenza nella generazione di immagini fotorealistiche flessibili a partire da descrizioni testuali. A differenza degli approcci esistenti per la generazione di immagini autoregressiva, Lumina-mGPT utilizza un trasformatore decoder-only preaddestrato come framework unificato per modellare sequenze di token multimodali. La nostra intuizione chiave è che un semplice trasformatore decoder-only con Generative PreTraining multimodale (mGPT), utilizzando l'obiettivo di previsione del token successivo su sequenze massicce intercalate di testo e immagini, possa apprendere capacità multimodali ampie e generali, illuminando così la generazione fotorealistica da testo a immagine. Basandoci su questi modelli preaddestrati, proponiamo il Flexible Progressive Supervised Finetuning (FP-SFT) su coppie di immagini-testo di alta qualità per sbloccare appieno il loro potenziale nella sintesi di immagini ad alta estetica a qualsiasi risoluzione, mantenendo al contempo le loro capacità multimodali generali. Inoltre, introduciamo l'Ominiponent Supervised Finetuning (Omni-SFT), trasformando Lumina-mGPT in un modello fondazionale che raggiunge in modo fluido l'unificazione onnipotente dei compiti. Il modello risultante dimostra capacità multimodali versatili, inclusi compiti di generazione visiva come la generazione flessibile da testo a immagine e la generazione controllata, compiti di riconoscimento visivo come la segmentazione e la stima della profondità, e compiti di visione e linguaggio come il rispondere a domande visive multiturno. Inoltre, analizziamo le differenze e le somiglianze tra i metodi basati su diffusione e quelli autoregressivi in un confronto diretto.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable
of various vision and language tasks, particularly excelling in generating
flexible photorealistic images from text descriptions. Unlike existing
autoregressive image generation approaches, Lumina-mGPT employs a pretrained
decoder-only transformer as a unified framework for modeling multimodal token
sequences. Our key insight is that a simple decoder-only transformer with
multimodal Generative PreTraining (mGPT), utilizing the next-token prediction
objective on massive interleaved text-image sequences, can learn broad and
general multimodal capabilities, thereby illuminating photorealistic
text-to-image generation. Building on these pretrained models, we propose
Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text
pairs to fully unlock their potential for high-aesthetic image synthesis at any
resolution while maintaining their general multimodal capabilities.
Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT),
transforming Lumina-mGPT into a foundation model that seamlessly achieves
omnipotent task unification. The resulting model demonstrates versatile
multimodal capabilities, including visual generation tasks like flexible
text-to-image generation and controllable generation, visual recognition tasks
like segmentation and depth estimation, and vision-language tasks like
multiturn visual question answering. Additionally, we analyze the differences
and similarities between diffusion-based and autoregressive methods in a direct
comparison.