PixArt-α: Treinamento Rápido de Transformadores de Difusão para Síntese Foto-realística de Texto para Imagem
PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis
September 30, 2023
Autores: Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Resumo
Os modelos mais avançados de texto para imagem (T2I) exigem custos significativos de treinamento (por exemplo, milhões de horas de GPU), o que dificulta seriamente a inovação fundamental para a comunidade de AIGC (Artificial Intelligence Generated Content) enquanto aumenta as emissões de CO2. Este artigo apresenta o PIXART-α, um modelo de difusão T2I baseado em Transformer, cuja qualidade de geração de imagens é competitiva com os geradores de imagem mais avançados (por exemplo, Imagen, SDXL e até mesmo Midjourney), atingindo padrões próximos aos de aplicações comerciais. Além disso, ele suporta a síntese de imagens de alta resolução de até 1024px com baixo custo de treinamento, conforme mostrado nas Figuras 1 e 2. Para alcançar esse objetivo, três projetos principais são propostos: (1) Decomposição da estratégia de treinamento: Desenvolvemos três etapas distintas de treinamento que otimizam separadamente a dependência de pixels, o alinhamento texto-imagem e a qualidade estética da imagem; (2) Transformer T2I eficiente: Incorporamos módulos de atenção cruzada no Diffusion Transformer (DiT) para injetar condições de texto e simplificar o ramo computacionalmente intensivo de condicionamento por classe; (3) Dados altamente informativos: Enfatizamos a importância da densidade conceitual em pares texto-imagem e utilizamos um grande modelo de Visão-Linguagem para rotular automaticamente legendas pseudo-densas, auxiliando o aprendizado de alinhamento texto-imagem. Como resultado, a velocidade de treinamento do PIXART-α supera significativamente os modelos T2I de grande escala existentes. Por exemplo, o PIXART-α leva apenas 10,8% do tempo de treinamento do Stable Diffusion v1.5 (675 vs. 6.250 dias de GPU A100), economizando cerca de \$300.000 (\$26.000 vs. \$320.000) e reduzindo 90% das emissões de CO2. Além disso, em comparação com um modelo SOTA maior, o RAPHAEL, nosso custo de treinamento é de apenas 1%. Experimentos extensivos demonstram que o PIXART-α se destaca em qualidade de imagem, artisticidade e controle semântico. Esperamos que o PIXART-α forneça novos insights para a comunidade de AIGC e startups, acelerando a construção de seus próprios modelos generativos de alta qualidade e baixo custo a partir do zero.
English
The most advanced text-to-image (T2I) models require significant training
costs (e.g., millions of GPU hours), seriously hindering the fundamental
innovation for the AIGC community while increasing CO2 emissions. This paper
introduces PIXART-alpha, a Transformer-based T2I diffusion model whose image
generation quality is competitive with state-of-the-art image generators (e.g.,
Imagen, SDXL, and even Midjourney), reaching near-commercial application
standards. Additionally, it supports high-resolution image synthesis up to
1024px resolution with low training cost, as shown in Figure 1 and 2. To
achieve this goal, three core designs are proposed: (1) Training strategy
decomposition: We devise three distinct training steps that separately optimize
pixel dependency, text-image alignment, and image aesthetic quality; (2)
Efficient T2I Transformer: We incorporate cross-attention modules into
Diffusion Transformer (DiT) to inject text conditions and streamline the
computation-intensive class-condition branch; (3) High-informative data: We
emphasize the significance of concept density in text-image pairs and leverage
a large Vision-Language model to auto-label dense pseudo-captions to assist
text-image alignment learning. As a result, PIXART-alpha's training speed
markedly surpasses existing large-scale T2I models, e.g., PIXART-alpha only
takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU
days), saving nearly \300,000 (26,000 vs. \320,000) and reducing 90% CO2
emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training
cost is merely 1%. Extensive experiments demonstrate that PIXART-\alpha
excels in image quality, artistry, and semantic control. We hope
PIXART-\alpha$ will provide new insights to the AIGC community and startups to
accelerate building their own high-quality yet low-cost generative models from
scratch.