Lumina-mGPT: Iluminar la Generación Flexible de Texto a Imagen Fotorrealista con Preentrenamiento Generativo Multimodal
Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining
August 5, 2024
Autores: Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yu Qiao, Hongsheng Li, Peng Gao
cs.AI
Resumen
Presentamos Lumina-mGPT, una familia de modelos autoregresivos multimodales capaces de realizar diversas tareas de visión y lenguaje, destacando especialmente en la generación de imágenes fotorrealistas flexibles a partir de descripciones de texto. A diferencia de los enfoques existentes de generación de imágenes autoregresivas, Lumina-mGPT utiliza un transformador preentrenado de solo decodificador como un marco unificado para modelar secuencias de tokens multimodales. Nuestra idea clave es que un simple transformador de solo decodificador con Generative PreTraining multimodal (mGPT), utilizando el objetivo de predicción del siguiente token en secuencias masivas de texto-imagen entrelazadas, puede aprender capacidades multimodales amplias y generales, iluminando así la generación fotorrealista de texto a imagen. Basándonos en estos modelos preentrenados, proponemos un Ajuste Supervisado Progresivo Flexible (FP-SFT) en pares de alta calidad de imagen-texto para desbloquear completamente su potencial para la síntesis de imágenes de alta estética en cualquier resolución, manteniendo al mismo tiempo sus capacidades multimodales generales. Además, introducimos un Ajuste Supervisado Omnipotente (Omni-SFT), transformando Lumina-mGPT en un modelo base que logra de manera fluida la unificación de tareas omnipotentes. El modelo resultante demuestra versátiles capacidades multimodales, incluyendo tareas de generación visual como la generación flexible de texto a imagen y generación controlable, tareas de reconocimiento visual como segmentación y estimación de profundidad, y tareas de visión-lenguaje como preguntas visuales multiturno. Además, analizamos las diferencias y similitudes entre los métodos basados en difusión y autoregresivos en una comparación directa.
English
We present Lumina-mGPT, a family of multimodal autoregressive models capable
of various vision and language tasks, particularly excelling in generating
flexible photorealistic images from text descriptions. Unlike existing
autoregressive image generation approaches, Lumina-mGPT employs a pretrained
decoder-only transformer as a unified framework for modeling multimodal token
sequences. Our key insight is that a simple decoder-only transformer with
multimodal Generative PreTraining (mGPT), utilizing the next-token prediction
objective on massive interleaved text-image sequences, can learn broad and
general multimodal capabilities, thereby illuminating photorealistic
text-to-image generation. Building on these pretrained models, we propose
Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text
pairs to fully unlock their potential for high-aesthetic image synthesis at any
resolution while maintaining their general multimodal capabilities.
Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT),
transforming Lumina-mGPT into a foundation model that seamlessly achieves
omnipotent task unification. The resulting model demonstrates versatile
multimodal capabilities, including visual generation tasks like flexible
text-to-image generation and controllable generation, visual recognition tasks
like segmentation and depth estimation, and vision-language tasks like
multiturn visual question answering. Additionally, we analyze the differences
and similarities between diffusion-based and autoregressive methods in a direct
comparison.