PixArt-Σ: Zwak-naar-sterk training van Diffusion Transformer voor 4K Tekst-naar-beeldgeneratie
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
March 7, 2024
Auteurs: Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
cs.AI
Samenvatting
In dit artikel introduceren we PixArt-\Sigma, een Diffusion Transformer-model (DiT) dat in staat is om direct afbeeldingen te genereren met een resolutie van 4K. PixArt-\Sigma vertegenwoordigt een significante vooruitgang ten opzichte van zijn voorganger, PixArt-\alpha, en biedt afbeeldingen van aanzienlijk hogere kwaliteit en een betere afstemming op tekstprompts. Een belangrijk kenmerk van PixArt-\Sigma is de efficiëntie van de training. Door gebruik te maken van de fundamentele voorafgaande training van PixArt-\alpha, evolueert het van een 'zwakkere' baseline naar een 'sterker' model door het incorporeren van hogere kwaliteit data, een proces dat we "weak-to-strong training" noemen. De verbeteringen in PixArt-\Sigma zijn tweeledig: (1) Trainingsdata van hoge kwaliteit: PixArt-\Sigma maakt gebruik van superieure afbeeldingsdata, gekoppeld aan nauwkeurigere en gedetailleerdere beeldbeschrijvingen. (2) Efficiënte tokencompressie: we introduceren een nieuwe aandachtmodule binnen het DiT-framework die zowel sleutels als waarden comprimeert, wat de efficiëntie aanzienlijk verbetert en de generatie van ultra-hoge-resolutie afbeeldingen vergemakkelijkt. Dankzij deze verbeteringen bereikt PixArt-\Sigma superieure beeldkwaliteit en het vermogen om gebruikersprompts nauwkeurig te volgen, met een aanzienlijk kleiner model (0,6B parameters) in vergelijking met bestaande tekst-naar-beeld diffusiemodellen, zoals SDXL (2,6B parameters) en SD Cascade (5,1B parameters). Bovendien ondersteunt de mogelijkheid van PixArt-\Sigma om 4K-afbeeldingen te genereren de creatie van hoogwaardige posters en achtergronden, wat de productie van hoogwaardig visueel materiaal in industrieën zoals film en gaming efficiënt versterkt.
English
In this paper, we introduce PixArt-\Sigma, a Diffusion Transformer
model~(DiT) capable of directly generating images at 4K resolution.
PixArt-\Sigma represents a significant advancement over its predecessor,
PixArt-\alpha, offering images of markedly higher fidelity and improved
alignment with text prompts. A key feature of PixArt-\Sigma is its training
efficiency. Leveraging the foundational pre-training of PixArt-\alpha, it
evolves from the `weaker' baseline to a `stronger' model via incorporating
higher quality data, a process we term "weak-to-strong training". The
advancements in PixArt-\Sigma are twofold: (1) High-Quality Training Data:
PixArt-\Sigma incorporates superior-quality image data, paired with more
precise and detailed image captions. (2) Efficient Token Compression: we
propose a novel attention module within the DiT framework that compresses both
keys and values, significantly improving efficiency and facilitating
ultra-high-resolution image generation. Thanks to these improvements,
PixArt-\Sigma achieves superior image quality and user prompt adherence
capabilities with significantly smaller model size (0.6B parameters) than
existing text-to-image diffusion models, such as SDXL (2.6B parameters) and SD
Cascade (5.1B parameters). Moreover, PixArt-\Sigma's capability to generate 4K
images supports the creation of high-resolution posters and wallpapers,
efficiently bolstering the production of high-quality visual content in
industries such as film and gaming.