Lumina-mGPT: Beleuchten der flexiblen fotorealistischen Text-zu-Bild-Generierung mit multimodalem generativem Vortraining
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
August 5, 2024
Autoren: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI
Zusammenfassung
Wir präsentieren Lumina-mGPT, eine Familie von multimodalen autoregressiven Modellen, die in der Lage sind, verschiedene Vision- und Sprachaufgaben zu bewältigen, insbesondere bei der Erzeugung flexibler fotorealistischer Bilder aus Textbeschreibungen. Im Gegensatz zu bestehenden autoregressiven Ansätzen zur Bildgenerierung verwendet Lumina-mGPT einen vorab trainierten dekoderbasierten Transformer als einheitliches Rahmenwerk zur Modellierung multimodaler Tokenfolgen. Unsere Schlüsselerkenntnis besteht darin, dass ein einfacher dekoderbasierter Transformer mit multimodalem Generative PreTraining (mGPT), der das Ziel der Vorhersage des nächsten Tokens auf massiven, abwechselnden Text-Bild-Sequenzen nutzt, breite und allgemeine multimodale Fähigkeiten erlernen kann, was die fotorealistische Text-zu-Bild-Generierung erleuchtet. Aufbauend auf diesen vorab trainierten Modellen schlagen wir Flexibles Progressives Supervised Feintuning (FP-SFT) auf hochwertigen Bild-Text-Paaren vor, um ihr Potenzial für die Synthese hochästhetischer Bilder in beliebiger Auflösung vollständig zu entfalten, während ihre allgemeinen multimodalen Fähigkeiten erhalten bleiben. Darüber hinaus führen wir Ominipotentes Supervised Feintuning (Omni-SFT) ein, das Lumina-mGPT in ein Grundlagenmodell verwandelt, das nahtlos eine omnipotente Aufgabenvereinigung erreicht. Das resultierende Modell zeigt vielseitige multimodale Fähigkeiten, einschließlich visueller Generierungsaufgaben wie flexible Text-zu-Bild-Generierung und kontrollierbare Generierung, visueller Erkennungsaufgaben wie Segmentierung und Tiefenschätzung sowie Vision-Sprach-Aufgaben wie mehrschichtige visuelle Fragebeantwortung. Darüber hinaus analysieren wir die Unterschiede und Ähnlichkeiten zwischen diffusionsbasierten und autoregressiven Methoden in einem direkten Vergleich.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable
of various vision and language tasks, particularly excelling in generating
flexible photorealistic images from text descriptions. Unlike existing
autoregressive image generation approaches, Lumina-mGPT employs a pretrained
decoder-only transformer as a unified framework for modeling multimodal token
sequences. Our key insight is that a simple decoder-only transformer with
multimodal Generative PreTraining (mGPT), utilizing the next-token prediction
objective on massive interleaved text-image sequences, can learn broad and
general multimodal capabilities, thereby illuminating photorealistic
text-to-image generation. Building on these pretrained models, we propose
Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text
pairs to fully unlock their potential for high-aesthetic image synthesis at any
resolution while maintaining their general multimodal capabilities.
Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT),
transforming Lumina-mGPT into a foundation model that seamlessly achieves
omnipotent task unification. The resulting model demonstrates versatile
multimodal capabilities, including visual generation tasks like flexible
text-to-image generation and controllable generation, visual recognition tasks
like segmentation and depth estimation, and vision-language tasks like
multiturn visual question answering. Additionally, we analyze the differences
and similarities between diffusion-based and autoregressive methods in a direct
comparison.Summary
AI-Generated Summary