PixArt-Σ: Обучение Diffusion Transformer от слабого к сильному для генерации текста в изображения разрешением 4K
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
March 7, 2024
Авторы: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Аннотация
В данной статье мы представляем модель PixArt-\Sigma, Диффузионный Трансформер (DiT), способную напрямую генерировать изображения разрешением 4K. PixArt-\Sigma представляет собой значительное усовершенствование по сравнению с предшественником, PixArt-\alpha, предлагая изображения с заметно более высокой точностью и улучшенным соответствием текстовым подсказкам. Одной из ключевых особенностей PixArt-\Sigma является его эффективность обучения. Используя основное предварительное обучение PixArt-\alpha, он развивается от "слабой" базовой модели к "сильной" модели путем интеграции более качественных данных, процесс, который мы называем "обучение от слабого к сильному". Усовершенствования в PixArt-\Sigma двойные: (1) Обучающие данные высокого качества: PixArt-\Sigma включает в себя данные изображений высокого качества, сопровождаемые более точными и детальными подписями к изображениям. (2) Эффективное сжатие токенов: мы предлагаем новый модуль внимания в рамках фреймворка DiT, который сжимает как ключи, так и значения, значительно повышая эффективность и облегчая генерацию изображений с ультравысоким разрешением. Благодаря этим усовершенствованиям, PixArt-\Sigma достигает более высокого качества изображений и способности к соблюдению указаний пользователей с значительно меньшим размером модели (0,6 миллиарда параметров) по сравнению с существующими моделями диффузии текста в изображение, такими как SDXL (2,6 миллиарда параметров) и SD Cascade (5,1 миллиарда параметров). Более того, способность PixArt-\Sigma генерировать изображения 4K поддерживает создание постеров и обоев высокого разрешения, эффективно усиливая производство высококачественного визуального контента в отраслях кино и игр.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.