Lumina-mGPT: Illuminare la Generazione Fotorealistica Flessibile da Testo a Immagine con Pretraining Generativo Multimodale

Abstract

Presentiamo Lumina-mGPT, una famiglia di modelli autoregressivi multimodali in grado di svolgere varie attività di visione e linguaggio, con particolare eccellenza nella generazione di immagini fotorealistiche flessibili a partire da descrizioni testuali. A differenza degli approcci esistenti per la generazione di immagini autoregressiva, Lumina-mGPT utilizza un trasformatore decoder-only preaddestrato come framework unificato per modellare sequenze di token multimodali. La nostra intuizione chiave è che un semplice trasformatore decoder-only con Generative PreTraining multimodale (mGPT), utilizzando l'obiettivo di previsione del token successivo su sequenze massicce intercalate di testo e immagini, possa apprendere capacità multimodali ampie e generali, illuminando così la generazione fotorealistica da testo a immagine. Basandoci su questi modelli preaddestrati, proponiamo il Flexible Progressive Supervised Finetuning (FP-SFT) su coppie di immagini-testo di alta qualità per sbloccare appieno il loro potenziale nella sintesi di immagini ad alta estetica a qualsiasi risoluzione, mantenendo al contempo le loro capacità multimodali generali. Inoltre, introduciamo l'Ominiponent Supervised Finetuning (Omni-SFT), trasformando Lumina-mGPT in un modello fondazionale che raggiunge in modo fluido l'unificazione onnipotente dei compiti. Il modello risultante dimostra capacità multimodali versatili, inclusi compiti di generazione visiva come la generazione flessibile da testo a immagine e la generazione controllata, compiti di riconoscimento visivo come la segmentazione e la stima della profondità, e compiti di visione e linguaggio come il rispondere a domande visive multiturno. Inoltre, analizziamo le differenze e le somiglianze tra i metodi basati su diffusione e quelli autoregressivi in un confronto diretto.

English

We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.

Lumina-mGPT: Illuminare la Generazione Fotorealistica Flessibile da Testo a Immagine con Pretraining Generativo Multimodale

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Abstract

Support