ChatPaper.aiChatPaper

PixArt-Σ: Schwach-zu-Stark-Training des Diffusion-Transformers für 4K Text-zu-Bild-Generierung

PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

March 7, 2024
Autoren: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI

Zusammenfassung

In diesem Paper stellen wir PixArt-\Sigma vor, ein Diffusionstransformator-Modell (DiT), das in der Lage ist, Bilder direkt in 4K-Auflösung zu generieren. PixArt-\Sigma stellt einen signifikanten Fortschritt gegenüber seinem Vorgänger, PixArt-\alpha, dar und bietet Bilder von deutlich höherer Qualität und verbesserte Übereinstimmung mit Texteingaben. Ein Schlüsselelement von PixArt-\Sigma ist seine Trainingseffizienz. Durch die Nutzung des grundlegenden Vortrainings von PixArt-\alpha entwickelt es sich von der "schwächeren" Basis zu einem "stärkeren" Modell, indem es hochwertigere Daten integriert, ein Prozess, den wir als "schwaches-zu-starkes Training" bezeichnen. Die Fortschritte in PixArt-\Sigma sind zweifach: (1) Hochwertige Trainingsdaten: PixArt-\Sigma integriert Bildmaterial von überlegener Qualität, gepaart mit präziseren und detaillierteren Bildunterschriften. (2) Effiziente Token-Kompression: Wir schlagen ein neuartiges Aufmerksamkeitsmodul innerhalb des DiT-Frameworks vor, das sowohl Schlüssel als auch Werte komprimiert, was die Effizienz erheblich verbessert und die Generierung von ultrahochauflösenden Bildern erleichtert. Dank dieser Verbesserungen erreicht PixArt-\Sigma eine überlegene Bildqualität und die Fähigkeit, Benutzereingaben signifikant besser zu berücksichtigen, bei einer deutlich kleineren Modellgröße (0,6 Mrd. Parameter) im Vergleich zu bestehenden Text-zu-Bild-Diffusionsmodellen wie SDXL (2,6 Mrd. Parameter) und SD Cascade (5,1 Mrd. Parameter). Darüber hinaus unterstützt die Fähigkeit von PixArt-\Sigma, 4K-Bilder zu generieren, die Erstellung von hochauflösenden Postern und Hintergrundbildern, wodurch die Produktion von hochwertigen visuellen Inhalten in Branchen wie Film und Gaming effizient unterstützt wird.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer model~(DiT) capable of directly generating images at 4K resolution. PixArt-\Sigma represents a significant advancement over its predecessor, PixArt-\alpha, offering images of markedly higher fidelity and improved alignment with text prompts. A key feature of PixArt-\Sigma is its training efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it evolves from the `weaker' baseline to a `stronger' model via incorporating higher quality data, a process we term "weak-to-strong training". The advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data: PixArt-\Sigma incorporates superior-quality image data, paired with more precise and detailed image captions. (2) Efficient Token Compression: we propose a novel attention module within the DiT framework that compresses both keys and values, significantly improving efficiency and facilitating ultra-high-resolution image generation. Thanks to these improvements, PixArt-\Sigma achieves superior image quality and user prompt adherence capabilities with significantly smaller model size (0.6B parameters) than existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K images supports the creation of high-resolution posters and wallpapers, efficiently bolstering the production of high-quality visual content in industries such as film and gaming.
PDF421December 15, 2024