Estabilización del Espacio Latente para el Modelado Autoregresivo de Imágenes: Una Perspectiva Unificada

Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective

October 16, 2024
Autores: Yongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing
cs.AI

Resumen

Los modelos generativos de imágenes basados en espacios latentes, como los Modelos de Difusión Latente (LDMs) y los Modelos de Imagen de Máscara (MIMs), han logrado un notable éxito en tareas de generación de imágenes. Estos modelos suelen aprovechar autoencoders reconstructivos como VQGAN o VAE para codificar píxeles en un espacio latente más compacto y aprender la distribución de datos en el espacio latente en lugar de hacerlo directamente desde los píxeles. Sin embargo, esta práctica plantea una pregunta pertinente: ¿Es verdaderamente la elección óptima? En respuesta, comenzamos con una observación intrigante: a pesar de compartir el mismo espacio latente, los modelos autoregresivos se quedan significativamente rezagados respecto a LDMs y MIMs en la generación de imágenes. Este hallazgo contrasta fuertemente con el campo de NLP, donde el modelo autoregresivo GPT ha establecido una presencia dominante. Para abordar esta discrepancia, presentamos una perspectiva unificada sobre la relación entre el espacio latente y los modelos generativos, enfatizando la estabilidad del espacio latente en la modelización generativa de imágenes. Además, proponemos un tokenizador de imágenes discreto simple pero efectivo para estabilizar el espacio latente en la modelización generativa de imágenes. Los resultados experimentales muestran que la modelización autoregresiva de imágenes con nuestro tokenizador (DiGIT) beneficia tanto la comprensión de imágenes como la generación de imágenes con el principio de predicción del siguiente token, que es inherentemente sencillo para los modelos GPT pero desafiante para otros modelos generativos. Notablemente, por primera vez, un modelo autoregresivo de estilo GPT para imágenes supera a LDMs, lo que también muestra una mejora sustancial similar a GPT al aumentar el tamaño del modelo. Nuestros hallazgos subrayan el potencial de un espacio latente optimizado y la integración de la tokenización discreta en el avance de las capacidades de los modelos generativos de imágenes. El código está disponible en https://github.com/DAMO-NLP-SG/DiGIT.
English
Latent-based image generative models, such as Latent Diffusion Models (LDMs) and Mask Image Models (MIMs), have achieved notable success in image generation tasks. These models typically leverage reconstructive autoencoders like VQGAN or VAE to encode pixels into a more compact latent space and learn the data distribution in the latent space instead of directly from pixels. However, this practice raises a pertinent question: Is it truly the optimal choice? In response, we begin with an intriguing observation: despite sharing the same latent space, autoregressive models significantly lag behind LDMs and MIMs in image generation. This finding contrasts sharply with the field of NLP, where the autoregressive model GPT has established a commanding presence. To address this discrepancy, we introduce a unified perspective on the relationship between latent space and generative models, emphasizing the stability of latent space in image generative modeling. Furthermore, we propose a simple but effective discrete image tokenizer to stabilize the latent space for image generative modeling. Experimental results show that image autoregressive modeling with our tokenizer (DiGIT) benefits both image understanding and image generation with the next token prediction principle, which is inherently straightforward for GPT models but challenging for other generative models. Remarkably, for the first time, a GPT-style autoregressive model for images outperforms LDMs, which also exhibits substantial improvement akin to GPT when scaling up model size. Our findings underscore the potential of an optimized latent space and the integration of discrete tokenization in advancing the capabilities of image generative models. The code is available at https://github.com/DAMO-NLP-SG/DiGIT.

Summary

AI-Generated Summary

PDF82November 16, 2024