Lumina-mGPT: Iluminar Geração Flexível de Texto-para-Imagem Fotorrealística com Pré-treinamento Generativo Multimodal
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
August 5, 2024
Autores: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI
Resumo
Apresentamos o Lumina-mGPT, uma família de modelos autoregressivos multimodais capazes de realizar diversas tarefas de visão e linguagem, destacando-se especialmente na geração de imagens fotorrealistas flexíveis a partir de descrições de texto. Ao contrário das abordagens existentes de geração de imagens autoregressivas, o Lumina-mGPT utiliza um transformador pré-treinado apenas no decodificador como um framework unificado para modelar sequências de tokens multimodais. Nossa principal percepção é que um simples transformador apenas no decodificador com Generative PreTraining multimodal (mGPT), utilizando o objetivo de previsão do próximo token em sequências maciças de texto-imagem entrelaçadas, pode aprender capacidades multimodais amplas e gerais, iluminando assim a geração fotorrealista de texto para imagem. Com base nesses modelos pré-treinados, propomos o Ajuste Fino Supervisionado Progressivo Flexível (FP-SFT) em pares de alta qualidade de imagem-texto para desbloquear totalmente seu potencial para síntese de imagem de alta estética em qualquer resolução, mantendo suas capacidades multimodais gerais. Além disso, introduzimos o Ajuste Fino Supervisionado Omnipotente (Omni-SFT), transformando o Lumina-mGPT em um modelo fundamental que alcança de forma contínua a unificação de tarefas onipotentes. O modelo resultante demonstra capacidades multimodais versáteis, incluindo tarefas de geração visual como geração flexível de texto para imagem e geração controlável, tarefas de reconhecimento visual como segmentação e estimativa de profundidade, e tarefas de visão e linguagem como perguntas e respostas visuais multiturno. Além disso, analisamos as diferenças e semelhanças entre métodos baseados em difusão e autoregressivos em uma comparação direta.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable
of various vision and language tasks, particularly excelling in generating
flexible photorealistic images from text descriptions. Unlike existing
autoregressive image generation approaches, Lumina-mGPT employs a pretrained
decoder-only transformer as a unified framework for modeling multimodal token
sequences. Our key insight is that a simple decoder-only transformer with
multimodal Generative PreTraining (mGPT), utilizing the next-token prediction
objective on massive interleaved text-image sequences, can learn broad and
general multimodal capabilities, thereby illuminating photorealistic
text-to-image generation. Building on these pretrained models, we propose
Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text
pairs to fully unlock their potential for high-aesthetic image synthesis at any
resolution while maintaining their general multimodal capabilities.
Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT),
transforming Lumina-mGPT into a foundation model that seamlessly achieves
omnipotent task unification. The resulting model demonstrates versatile
multimodal capabilities, including visual generation tasks like flexible
text-to-image generation and controllable generation, visual recognition tasks
like segmentation and depth estimation, and vision-language tasks like
multiturn visual question answering. Additionally, we analyze the differences
and similarities between diffusion-based and autoregressive methods in a direct
comparison.Summary
AI-Generated Summary