PixArt-α: Быстрое обучение диффузионного трансформера для фотореалистичного синтеза изображений по тексту
PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
September 30, 2023
Авторы: Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Аннотация
Самые передовые модели преобразования текста в изображение (T2I) требуют значительных затрат на обучение (например, миллионы часов работы GPU), что серьезно сдерживает фундаментальные инновации в сообществе AIGC и одновременно увеличивает выбросы CO2. В данной статье представлена PIXART-alpha, трансформерная диффузионная модель T2I, качество генерации изображений которой конкурирует с современными генераторами изображений (например, Imagen, SDXL и даже Midjourney), достигая стандартов, близких к коммерческим приложениям. Кроме того, она поддерживает синтез изображений с высоким разрешением до 1024 пикселей при низких затратах на обучение, как показано на рисунках 1 и 2. Для достижения этой цели предложены три ключевых решения: (1) Декомпозиция стратегии обучения: мы разработали три отдельных этапа обучения, которые оптимизируют зависимость пикселей, выравнивание текста и изображения, а также эстетическое качество изображения; (2) Эффективный T2I-трансформер: мы интегрировали модули кросс-внимания в Diffusion Transformer (DiT) для внедрения текстовых условий и упрощения вычислительно затратной ветви с условиями класса; (3) Высокоинформативные данные: мы подчеркиваем важность плотности концептов в парах текст-изображение и используем крупную модель Vision-Language для автоматической маркировки плотных псевдо-описаний, чтобы улучшить обучение выравниванию текста и изображения. В результате скорость обучения PIXART-alpha значительно превосходит существующие крупномасштабные модели T2I. Например, PIXART-alpha занимает всего 10,8% времени обучения Stable Diffusion v1.5 (675 против 6,250 дней работы A100 GPU), экономя почти \$300,000 (26,000 против \$320,000) и сокращая выбросы CO2 на 90%. Более того, по сравнению с более крупной современной моделью RAPHAEL, наши затраты на обучение составляют всего 1%. Многочисленные эксперименты демонстрируют, что PIXART-alpha превосходит по качеству изображений, художественности и семантическому контролю. Мы надеемся, что PIXART-alpha предоставит новые идеи сообществу AIGC и стартапам для ускорения создания собственных высококачественных, но экономичных генеративных моделей с нуля.
English
The most advanced text-to-image (T2I) models require significant training
costs (e.g., millions of GPU hours), seriously hindering the fundamental
innovation for the AIGC community while increasing CO2 emissions. This paper
introduces PIXART-alpha, a Transformer-based T2I diffusion model whose image
generation quality is competitive with state-of-the-art image generators (e.g.,
Imagen, SDXL, and even Midjourney), reaching near-commercial application
standards. Additionally, it supports high-resolution image synthesis up to
1024px resolution with low training cost, as shown in Figure 1 and 2. To
achieve this goal, three core designs are proposed: (1) Training strategy
decomposition: We devise three distinct training steps that separately optimize
pixel dependency, text-image alignment, and image aesthetic quality; (2)
Efficient T2I Transformer: We incorporate cross-attention modules into
Diffusion Transformer (DiT) to inject text conditions and streamline the
computation-intensive class-condition branch; (3) High-informative data: We
emphasize the significance of concept density in text-image pairs and leverage
a large Vision-Language model to auto-label dense pseudo-captions to assist
text-image alignment learning. As a result, PIXART-alpha's training speed
markedly surpasses existing large-scale T2I models, e.g., PIXART-alpha only
takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU
days), saving nearly \300,000 (26,000 vs. \320,000) and reducing 90% CO2
emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training
cost is merely 1%. Extensive experiments demonstrate that PIXART-\alpha
excels in image quality, artistry, and semantic control. We hope
PIXART-\alpha$ will provide new insights to the AIGC community and startups to
accelerate building their own high-quality yet low-cost generative models from
scratch.