ChatPaper.aiChatPaper

PixArt-α: Schnelles Training von Diffusion Transformern für fotorealistische Text-zu-Bild-Synthese

PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

September 30, 2023
papers.authors: Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI

papers.abstract

Die fortschrittlichsten Text-zu-Bild (T2I)-Modelle erfordern erhebliche Trainingskosten (z. B. Millionen von GPU-Stunden), was die grundlegende Innovation in der AIGC-Community ernsthaft behindert und gleichzeitig die CO2-Emissionen erhöht. Dieses Paper stellt PIXART-alpha vor, ein Transformer-basiertes T2I-Diffusionsmodell, dessen Bildgenerierungsqualität mit den modernsten Bildgeneratoren (z. B. Imagen, SDXL und sogar Midjourney) konkurrieren kann und nahezu kommerzielle Anwendungsstandards erreicht. Darüber hinaus unterstützt es die Synthese hochauflösender Bilder bis zu 1024px Auflösung bei geringen Trainingskosten, wie in Abbildung 1 und 2 gezeigt wird. Um dieses Ziel zu erreichen, werden drei Kernentwürfe vorgeschlagen: (1) Zerlegung der Trainingsstrategie: Wir entwickeln drei verschiedene Trainingsschritte, die die Pixelabhängigkeit, die Text-Bild-Ausrichtung und die ästhetische Bildqualität separat optimieren; (2) Effizienter T2I-Transformer: Wir integrieren Cross-Attention-Module in den Diffusion Transformer (DiT), um Textbedingungen einzubringen und den rechenintensiven Klassenbedingungszweig zu optimieren; (3) Hochinformative Daten: Wir betonen die Bedeutung der Konzeptdichte in Text-Bild-Paaren und nutzen ein großes Vision-Language-Modell, um dichte Pseudobeschriftungen automatisch zu labeln, um das Lernen der Text-Bild-Ausrichtung zu unterstützen. Infolgedessen übertrifft die Trainingsgeschwindigkeit von PIXART-alpha deutlich die bestehender großformatiger T2I-Modelle, z. B. benötigt PIXART-alpha nur 10,8 % der Trainingszeit von Stable Diffusion v1.5 (675 vs. 6.250 A100 GPU-Tage), spart fast 300.000 US-Dollar (26.000 vs. 320.000 US-Dollar) und reduziert die CO2-Emissionen um 90 %. Darüber hinaus betragen unsere Trainingskosten im Vergleich zu einem größeren SOTA-Modell, RAPHAEL, lediglich 1 %. Umfangreiche Experimente zeigen, dass PIXART-alpha in Bildqualität, Kreativität und semantischer Steuerung überragt. Wir hoffen, dass PIXART-alpha der AIGC-Community und Startups neue Einblicke bietet, um den Aufbau ihrer eigenen hochwertigen, aber kostengünstigen generativen Modelle von Grund auf zu beschleunigen.
English
The most advanced text-to-image (T2I) models require significant training costs (e.g., millions of GPU hours), seriously hindering the fundamental innovation for the AIGC community while increasing CO2 emissions. This paper introduces PIXART-alpha, a Transformer-based T2I diffusion model whose image generation quality is competitive with state-of-the-art image generators (e.g., Imagen, SDXL, and even Midjourney), reaching near-commercial application standards. Additionally, it supports high-resolution image synthesis up to 1024px resolution with low training cost, as shown in Figure 1 and 2. To achieve this goal, three core designs are proposed: (1) Training strategy decomposition: We devise three distinct training steps that separately optimize pixel dependency, text-image alignment, and image aesthetic quality; (2) Efficient T2I Transformer: We incorporate cross-attention modules into Diffusion Transformer (DiT) to inject text conditions and streamline the computation-intensive class-condition branch; (3) High-informative data: We emphasize the significance of concept density in text-image pairs and leverage a large Vision-Language model to auto-label dense pseudo-captions to assist text-image alignment learning. As a result, PIXART-alpha's training speed markedly surpasses existing large-scale T2I models, e.g., PIXART-alpha only takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU days), saving nearly \300,000 (26,000 vs. \320,000) and reducing 90% CO2 emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training cost is merely 1%. Extensive experiments demonstrate that PIXART-\alpha excels in image quality, artistry, and semantic control. We hope PIXART-\alpha$ will provide new insights to the AIGC community and startups to accelerate building their own high-quality yet low-cost generative models from scratch.
PDF6011December 15, 2024