ChatPaper.aiChatPaper

Meissonic: Revitalizando Transformadores Generativos Mascaramentados para uma Síntese Eficiente de Texto para Imagem em Alta Resolução

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

October 10, 2024
Autores: Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan
cs.AI

Resumo

Modelos de difusão, como a Difusão Estável, avançaram significativamente na geração visual, no entanto, seu paradigma permanece fundamentalmente diferente dos modelos de linguagem autoregressivos, o que complica o desenvolvimento de modelos unificados de linguagem-visão. Esforços recentes, como o LlamaGen, tentaram a geração de imagens autoregressivas usando tokens discretos VQVAE, mas o grande número de tokens envolvidos torna esse método ineficiente e lento. Neste trabalho, apresentamos o Meissonic, que eleva a modelagem de imagens mascaradas não autoregressivas (MIM) texto-para-imagem a um nível comparável aos modelos de difusão de última geração, como o SDXL. Ao incorporar uma ampla gama de inovações arquiteturais, estratégias avançadas de codificação posicional e condições de amostragem otimizadas, o Meissonic melhora substancialmente o desempenho e a eficiência do MIM. Além disso, aproveitamos dados de treinamento de alta qualidade, integramos microcondições informadas por pontuações de preferência humana e utilizamos camadas de compressão de características para aprimorar ainda mais a fidelidade e a resolução da imagem. Nosso modelo não apenas iguala, mas muitas vezes supera o desempenho de modelos existentes como o SDXL na geração de imagens de alta qualidade e alta resolução. Experimentos extensivos validam as capacidades do Meissonic, demonstrando seu potencial como um novo padrão na síntese de texto-para-imagem. Disponibilizamos um ponto de verificação do modelo capaz de produzir imagens de resolução 1024 vezes 1024.
English
Diffusion models, such as Stable Diffusion, have made significant strides in visual generation, yet their paradigm remains fundamentally different from autoregressive language models, complicating the development of unified language-vision models. Recent efforts like LlamaGen have attempted autoregressive image generation using discrete VQVAE tokens, but the large number of tokens involved renders this approach inefficient and slow. In this work, we present Meissonic, which elevates non-autoregressive masked image modeling (MIM) text-to-image to a level comparable with state-of-the-art diffusion models like SDXL. By incorporating a comprehensive suite of architectural innovations, advanced positional encoding strategies, and optimized sampling conditions, Meissonic substantially improves MIM's performance and efficiency. Additionally, we leverage high-quality training data, integrate micro-conditions informed by human preference scores, and employ feature compression layers to further enhance image fidelity and resolution. Our model not only matches but often exceeds the performance of existing models like SDXL in generating high-quality, high-resolution images. Extensive experiments validate Meissonic's capabilities, demonstrating its potential as a new standard in text-to-image synthesis. We release a model checkpoint capable of producing 1024 times 1024 resolution images.

Summary

AI-Generated Summary

PDF522November 16, 2024