Lumina-mGPT: Verlicht Flexibele Fotorealistische Tekst-naar-Afbeelding Generatie met Multimodale Generatieve Voorafgaande Training
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
August 5, 2024
Auteurs: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI
Samenvatting
We presenteren Lumina-mGPT, een familie van multimodale autoregressieve modellen die in staat zijn tot diverse visuele en taaltaken, met name uitblinkend in het genereren van flexibele, fotorealistische afbeeldingen vanuit tekstbeschrijvingen. In tegenstelling tot bestaande autoregressieve benaderingen voor beeldgeneratie, maakt Lumina-mGPT gebruik van een vooraf getrainde decoder-only transformer als een uniform raamwerk voor het modelleren van multimodale tokenreeksen. Onze belangrijkste inzicht is dat een eenvoudige decoder-only transformer met multimodale Generative PreTraining (mGPT), die gebruikmaakt van het next-token prediction-doel op massieve interleaved tekst-beeldreeksen, brede en algemene multimodale capaciteiten kan leren, waardoor fotorealistische tekst-naar-beeldgeneratie wordt verlicht. Op basis van deze vooraf getrainde modellen stellen we Flexible Progressive Supervised Finetuning (FP-SFT) voor op hoogwaardige beeld-tekstparen om hun potentieel volledig te ontsluiten voor hoog-esthetische beeldgeneratie op elke resolutie, terwijl hun algemene multimodale capaciteiten behouden blijven. Bovendien introduceren we Ominiponent Supervised Finetuning (Omni-SFT), dat Lumina-mGPT transformeert in een foundation-model dat naadloos omnipotente taakunificatie bereikt. Het resulterende model toont veelzijdige multimodale capaciteiten, waaronder visuele generatietaken zoals flexibele tekst-naar-beeldgeneratie en controleerbare generatie, visuele herkenningstaken zoals segmentatie en diepteschatting, en visie-taaltaken zoals multiturn visuele vraagbeantwoording. Daarnaast analyseren we de verschillen en overeenkomsten tussen diffusiegebaseerde en autoregressieve methoden in een directe vergelijking.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable
of various vision and language tasks, particularly excelling in generating
flexible photorealistic images from text descriptions. Unlike existing
autoregressive image generation approaches, Lumina-mGPT employs a pretrained
decoder-only transformer as a unified framework for modeling multimodal token
sequences. Our key insight is that a simple decoder-only transformer with
multimodal Generative PreTraining (mGPT), utilizing the next-token prediction
objective on massive interleaved text-image sequences, can learn broad and
general multimodal capabilities, thereby illuminating photorealistic
text-to-image generation. Building on these pretrained models, we propose
Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text
pairs to fully unlock their potential for high-aesthetic image synthesis at any
resolution while maintaining their general multimodal capabilities.
Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT),
transforming Lumina-mGPT into a foundation model that seamlessly achieves
omnipotent task unification. The resulting model demonstrates versatile
multimodal capabilities, including visual generation tasks like flexible
text-to-image generation and controllable generation, visual recognition tasks
like segmentation and depth estimation, and vision-language tasks like
multiturn visual question answering. Additionally, we analyze the differences
and similarities between diffusion-based and autoregressive methods in a direct
comparison.