Meissonic: Revitalizando Transformadores Generativos Mascaramentados para uma Síntese Eficiente de Texto para Imagem em Alta Resolução
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis
October 10, 2024
Autores: Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan
cs.AI
Resumo
Modelos de difusão, como a Difusão Estável, avançaram significativamente na geração visual, no entanto, seu paradigma permanece fundamentalmente diferente dos modelos de linguagem autoregressivos, o que complica o desenvolvimento de modelos unificados de linguagem-visão. Esforços recentes, como o LlamaGen, tentaram a geração de imagens autoregressivas usando tokens discretos VQVAE, mas o grande número de tokens envolvidos torna esse método ineficiente e lento. Neste trabalho, apresentamos o Meissonic, que eleva a modelagem de imagens mascaradas não autoregressivas (MIM) texto-para-imagem a um nível comparável aos modelos de difusão de última geração, como o SDXL. Ao incorporar uma ampla gama de inovações arquiteturais, estratégias avançadas de codificação posicional e condições de amostragem otimizadas, o Meissonic melhora substancialmente o desempenho e a eficiência do MIM. Além disso, aproveitamos dados de treinamento de alta qualidade, integramos microcondições informadas por pontuações de preferência humana e utilizamos camadas de compressão de características para aprimorar ainda mais a fidelidade e a resolução da imagem. Nosso modelo não apenas iguala, mas muitas vezes supera o desempenho de modelos existentes como o SDXL na geração de imagens de alta qualidade e alta resolução. Experimentos extensivos validam as capacidades do Meissonic, demonstrando seu potencial como um novo padrão na síntese de texto-para-imagem. Disponibilizamos um ponto de verificação do modelo capaz de produzir imagens de resolução 1024 vezes 1024.
English
Diffusion models, such as Stable Diffusion, have made significant strides in
visual generation, yet their paradigm remains fundamentally different from
autoregressive language models, complicating the development of unified
language-vision models. Recent efforts like LlamaGen have attempted
autoregressive image generation using discrete VQVAE tokens, but the large
number of tokens involved renders this approach inefficient and slow. In this
work, we present Meissonic, which elevates non-autoregressive masked image
modeling (MIM) text-to-image to a level comparable with state-of-the-art
diffusion models like SDXL. By incorporating a comprehensive suite of
architectural innovations, advanced positional encoding strategies, and
optimized sampling conditions, Meissonic substantially improves MIM's
performance and efficiency. Additionally, we leverage high-quality training
data, integrate micro-conditions informed by human preference scores, and
employ feature compression layers to further enhance image fidelity and
resolution. Our model not only matches but often exceeds the performance of
existing models like SDXL in generating high-quality, high-resolution images.
Extensive experiments validate Meissonic's capabilities, demonstrating its
potential as a new standard in text-to-image synthesis. We release a model
checkpoint capable of producing 1024 times 1024 resolution images.Summary
AI-Generated Summary