ChatPaper.aiChatPaper

Meissonic: 효율적인 고해상도 텍스트-이미지 합성을 위한 가려진 생성 트랜스포머의 부활

Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

October 10, 2024
저자: Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan
cs.AI

초록

확산 모델인 Stable Diffusion과 같은 모델들은 시각 생성 분야에서 상당한 발전을 이루었지만, 그 패러다임은 자기회귀 언어 모델과 근본적으로 다르기 때문에 통합된 언어-시각 모델의 개발을 복잡하게 만듭니다. LlamaGen과 같은 최근 노력들은 이산 VQVAE 토큰을 사용하여 자기회귀 이미지 생성을 시도했지만, 많은 수의 토큰이 관련되어 있어 이 접근 방식은 비효율적이고 느립니다. 본 연구에서는 Meissonic을 제안하여 비자기회귀 마스킹된 이미지 모델링(MIM) 텍스트-이미지를 SDXL과 같은 최첨단 확산 모델과 유사한 수준으로 끌어올립니다. 포지셔널 인코딩 전략, 최적화된 샘플링 조건, 첨단 아키텍처 혁신들을 통합함으로써 Meissonic은 MIM의 성능과 효율성을 상당히 향상시킵니다. 또한 우수한 훈련 데이터를 활용하고, 인간의 선호도 점수에 의해 안내되는 마이크로 조건을 통합하며, 특징 압축 레이어를 사용하여 이미지의 충실도와 해상도를 더욱 향상시킵니다. 우리의 모델은 고품질, 고해상도 이미지를 생성하는 데 있어서 SDXL과 같은 기존 모델의 성능을 능가하는 경우가 많습니다. 포괄적인 실험은 Meissonic의 능력을 검증하며, 텍스트-이미지 합성 분야의 새로운 표준으로의 잠재력을 입증합니다. 우리는 1024x1024 해상도 이미지를 생성할 수 있는 모델 체크포인트를 공개합니다.
English
Diffusion models, such as Stable Diffusion, have made significant strides in visual generation, yet their paradigm remains fundamentally different from autoregressive language models, complicating the development of unified language-vision models. Recent efforts like LlamaGen have attempted autoregressive image generation using discrete VQVAE tokens, but the large number of tokens involved renders this approach inefficient and slow. In this work, we present Meissonic, which elevates non-autoregressive masked image modeling (MIM) text-to-image to a level comparable with state-of-the-art diffusion models like SDXL. By incorporating a comprehensive suite of architectural innovations, advanced positional encoding strategies, and optimized sampling conditions, Meissonic substantially improves MIM's performance and efficiency. Additionally, we leverage high-quality training data, integrate micro-conditions informed by human preference scores, and employ feature compression layers to further enhance image fidelity and resolution. Our model not only matches but often exceeds the performance of existing models like SDXL in generating high-quality, high-resolution images. Extensive experiments validate Meissonic's capabilities, demonstrating its potential as a new standard in text-to-image synthesis. We release a model checkpoint capable of producing 1024 times 1024 resolution images.

Summary

AI-Generated Summary

PDF522November 16, 2024