Lumina-mGPT: Iluminar la Generación Flexible de Texto a Imagen Fotorrealista con Preentrenamiento Generativo Multimodal

Resumen

Presentamos Lumina-mGPT, una familia de modelos autoregresivos multimodales capaces de realizar diversas tareas de visión y lenguaje, destacando especialmente en la generación de imágenes fotorrealistas flexibles a partir de descripciones de texto. A diferencia de los enfoques existentes de generación de imágenes autoregresivas, Lumina-mGPT utiliza un transformador preentrenado de solo decodificador como un marco unificado para modelar secuencias de tokens multimodales. Nuestra idea clave es que un simple transformador de solo decodificador con Generative PreTraining multimodal (mGPT), utilizando el objetivo de predicción del siguiente token en secuencias masivas de texto-imagen entrelazadas, puede aprender capacidades multimodales amplias y generales, iluminando así la generación fotorrealista de texto a imagen. Basándonos en estos modelos preentrenados, proponemos un Ajuste Supervisado Progresivo Flexible (FP-SFT) en pares de alta calidad de imagen-texto para desbloquear completamente su potencial para la síntesis de imágenes de alta estética en cualquier resolución, manteniendo al mismo tiempo sus capacidades multimodales generales. Además, introducimos un Ajuste Supervisado Omnipotente (Omni-SFT), transformando Lumina-mGPT en un modelo base que logra de manera fluida la unificación de tareas omnipotentes. El modelo resultante demuestra versátiles capacidades multimodales, incluyendo tareas de generación visual como la generación flexible de texto a imagen y generación controlable, tareas de reconocimiento visual como segmentación y estimación de profundidad, y tareas de visión-lenguaje como preguntas visuales multiturno. Además, analizamos las diferencias y similitudes entre los métodos basados en difusión y autoregresivos en una comparación directa.

English

We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. Unlike existing autoregressive image generation approaches, Lumina-mGPT employs a pretrained decoder-only transformer as a unified framework for modeling multimodal token sequences. Our key insight is that a simple decoder-only transformer with multimodal Generative PreTraining (mGPT), utilizing the next-token prediction objective on massive interleaved text-image sequences, can learn broad and general multimodal capabilities, thereby illuminating photorealistic text-to-image generation. Building on these pretrained models, we propose Flexible Progressive Supervised Finetuning (FP-SFT) on high-quality image-text pairs to fully unlock their potential for high-aesthetic image synthesis at any resolution while maintaining their general multimodal capabilities. Furthermore, we introduce Ominiponent Supervised Finetuning (Omni-SFT), transforming Lumina-mGPT into a foundation model that seamlessly achieves omnipotent task unification. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like flexible text-to-image generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multiturn visual question answering. Additionally, we analyze the differences and similarities between diffusion-based and autoregressive methods in a direct comparison.

Lumina-mGPT: Iluminar la Generación Flexible de Texto a Imagen Fotorrealista con Preentrenamiento Generativo Multimodal

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Resumen

Support