Meissonic: Revitalizando los Transformadores Generativos Enmascarados para una Síntesis Eficiente de Texto a Imagen de Alta Resolución
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis
October 10, 2024
Autores: Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan
cs.AI
Resumen
Los modelos de difusión, como la Difusión Estable, han avanzado significativamente en la generación visual, sin embargo, su paradigma sigue siendo fundamentalmente diferente de los modelos de lenguaje autoregresivos, lo que complica el desarrollo de modelos unificados de lenguaje-visión. Esfuerzos recientes como LlamaGen han intentado la generación de imágenes autoregresivas utilizando tokens discretos VQVAE, pero el gran número de tokens involucrados hace que este enfoque sea ineficiente y lento. En este trabajo, presentamos Meissonic, que eleva la modelización de imágenes enmascaradas no autoregresivas (MIM) texto a imagen a un nivel comparable con los modelos de difusión de última generación como SDXL. Al incorporar una amplia gama de innovaciones arquitectónicas, estrategias avanzadas de codificación posicional y condiciones de muestreo optimizadas, Meissonic mejora sustancialmente el rendimiento y la eficiencia de MIM. Además, aprovechamos datos de entrenamiento de alta calidad, integramos microcondiciones informadas por puntuaciones de preferencia humana y empleamos capas de compresión de características para mejorar aún más la fidelidad y resolución de la imagen. Nuestro modelo no solo iguala, sino que a menudo supera el rendimiento de modelos existentes como SDXL en la generación de imágenes de alta calidad y alta resolución. Experimentos extensos validan las capacidades de Meissonic, demostrando su potencial como un nuevo estándar en la síntesis de texto a imagen. Publicamos un punto de control del modelo capaz de producir imágenes de resolución 1024 por 1024.
English
Diffusion models, such as Stable Diffusion, have made significant strides in
visual generation, yet their paradigm remains fundamentally different from
autoregressive language models, complicating the development of unified
language-vision models. Recent efforts like LlamaGen have attempted
autoregressive image generation using discrete VQVAE tokens, but the large
number of tokens involved renders this approach inefficient and slow. In this
work, we present Meissonic, which elevates non-autoregressive masked image
modeling (MIM) text-to-image to a level comparable with state-of-the-art
diffusion models like SDXL. By incorporating a comprehensive suite of
architectural innovations, advanced positional encoding strategies, and
optimized sampling conditions, Meissonic substantially improves MIM's
performance and efficiency. Additionally, we leverage high-quality training
data, integrate micro-conditions informed by human preference scores, and
employ feature compression layers to further enhance image fidelity and
resolution. Our model not only matches but often exceeds the performance of
existing models like SDXL in generating high-quality, high-resolution images.
Extensive experiments validate Meissonic's capabilities, demonstrating its
potential as a new standard in text-to-image synthesis. We release a model
checkpoint capable of producing 1024 times 1024 resolution images.Summary
AI-Generated Summary