ChatPaper.aiChatPaper

Meissonic: Revitalizando los Transformadores Generativos Enmascarados para una Síntesis Eficiente de Texto a Imagen de Alta Resolución

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

October 10, 2024
Autores: Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan
cs.AI

Resumen

Los modelos de difusión, como la Difusión Estable, han avanzado significativamente en la generación visual, sin embargo, su paradigma sigue siendo fundamentalmente diferente de los modelos de lenguaje autoregresivos, lo que complica el desarrollo de modelos unificados de lenguaje-visión. Esfuerzos recientes como LlamaGen han intentado la generación de imágenes autoregresivas utilizando tokens discretos VQVAE, pero el gran número de tokens involucrados hace que este enfoque sea ineficiente y lento. En este trabajo, presentamos Meissonic, que eleva la modelización de imágenes enmascaradas no autoregresivas (MIM) texto a imagen a un nivel comparable con los modelos de difusión de última generación como SDXL. Al incorporar una amplia gama de innovaciones arquitectónicas, estrategias avanzadas de codificación posicional y condiciones de muestreo optimizadas, Meissonic mejora sustancialmente el rendimiento y la eficiencia de MIM. Además, aprovechamos datos de entrenamiento de alta calidad, integramos microcondiciones informadas por puntuaciones de preferencia humana y empleamos capas de compresión de características para mejorar aún más la fidelidad y resolución de la imagen. Nuestro modelo no solo iguala, sino que a menudo supera el rendimiento de modelos existentes como SDXL en la generación de imágenes de alta calidad y alta resolución. Experimentos extensos validan las capacidades de Meissonic, demostrando su potencial como un nuevo estándar en la síntesis de texto a imagen. Publicamos un punto de control del modelo capaz de producir imágenes de resolución 1024 por 1024.
English
Diffusion models, such as Stable Diffusion, have made significant strides in visual generation, yet their paradigm remains fundamentally different from autoregressive language models, complicating the development of unified language-vision models. Recent efforts like LlamaGen have attempted autoregressive image generation using discrete VQVAE tokens, but the large number of tokens involved renders this approach inefficient and slow. In this work, we present Meissonic, which elevates non-autoregressive masked image modeling (MIM) text-to-image to a level comparable with state-of-the-art diffusion models like SDXL. By incorporating a comprehensive suite of architectural innovations, advanced positional encoding strategies, and optimized sampling conditions, Meissonic substantially improves MIM's performance and efficiency. Additionally, we leverage high-quality training data, integrate micro-conditions informed by human preference scores, and employ feature compression layers to further enhance image fidelity and resolution. Our model not only matches but often exceeds the performance of existing models like SDXL in generating high-quality, high-resolution images. Extensive experiments validate Meissonic's capabilities, demonstrating its potential as a new standard in text-to-image synthesis. We release a model checkpoint capable of producing 1024 times 1024 resolution images.

Summary

AI-Generated Summary

PDF522November 16, 2024