PixArt-Σ: 4Kテキスト画像生成のための拡散トランスフォーマーの弱から強へのトレーニング
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
March 7, 2024
著者: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
要旨
本論文では、4K解像度の画像を直接生成可能なDiffusion Transformerモデル(DiT)であるPixArt-Σを紹介する。PixArt-Σは、その前身であるPixArt-αを大幅に進化させ、より高い忠実度とテキストプロンプトとの整合性を実現している。PixArt-Σの重要な特徴は、その学習効率である。PixArt-αの基盤となる事前学習を活用し、より高品質なデータを取り入れることで、「弱い」ベースラインから「強い」モデルへと進化する。このプロセスを「弱から強への学習」と呼ぶ。PixArt-Σの進歩は二つの側面に分けられる:(1) 高品質な学習データ:PixArt-Σは、より高品質な画像データと、より正確で詳細な画像キャプションを組み込んでいる。(2) 効率的なトークン圧縮:DiTフレームワーク内に新たな注意モジュールを提案し、キーと値の両方を圧縮することで、効率を大幅に向上させ、超高解像度画像の生成を可能にする。これらの改善により、PixArt-Σは、SDXL(2.6Bパラメータ)やSD Cascade(5.1Bパラメータ)などの既存のテキストから画像への拡散モデルと比較して、大幅に小さいモデルサイズ(0.6Bパラメータ)で優れた画像品質とユーザープロンプトへの忠実度を実現している。さらに、PixArt-Σの4K画像生成能力は、高解像度のポスターや壁紙の作成を支援し、映画やゲームなどの産業における高品質なビジュアルコンテンツの生産を効率的に強化する。
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.