Lumina-mGPT: Verlicht Flexibele Fotorealistische Tekst-naar-Afbeelding Generatie met Multimodale Generatieve Voorafgaande Training

Samenvatting

We presenteren Lumina-mGPT, een familie van multimodale autoregressieve modellen die in staat zijn tot diverse visuele en taaltaken, met name uitblinkend in het genereren van flexibele, fotorealistische afbeeldingen vanuit tekstbeschrijvingen. In tegenstelling tot bestaande autoregressieve benaderingen voor beeldgeneratie, maakt Lumina-mGPT gebruik van een vooraf getrainde decoder-only transformer als een uniform raamwerk voor het modelleren van multimodale tokenreeksen. Onze belangrijkste inzicht is dat een eenvoudige decoder-only transformer met multimodale Generative PreTraining (mGPT), die gebruikmaakt van het next-token prediction-doel op massieve interleaved tekst-beeldreeksen, brede en algemene multimodale capaciteiten kan leren, waardoor fotorealistische tekst-naar-beeldgeneratie wordt verlicht. Op basis van deze vooraf getrainde modellen stellen we Flexible Progressive Supervised Finetuning (FP-SFT) voor op hoogwaardige beeld-tekstparen om hun potentieel volledig te ontsluiten voor hoog-esthetische beeldgeneratie op elke resolutie, terwijl hun algemene multimodale capaciteiten behouden blijven. Bovendien introduceren we Ominiponent Supervised Finetuning (Omni-SFT), dat Lumina-mGPT transformeert in een foundation-model dat naadloos omnipotente taakunificatie bereikt. Het resulterende model toont veelzijdige multimodale capaciteiten, waaronder visuele generatietaken zoals flexibele tekst-naar-beeldgeneratie en controleerbare generatie, visuele herkenningstaken zoals segmentatie en diepteschatting, en visie-taaltaken zoals multiturn visuele vraagbeantwoording. Daarnaast analyseren we de verschillen en overeenkomsten tussen diffusiegebaseerde en autoregressieve methoden in een directe vergelijking.

English

We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.

Lumina-mGPT: Verlicht Flexibele Fotorealistische Tekst-naar-Afbeelding Generatie met Multimodale Generatieve Voorafgaande Training

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Samenvatting

Support