Schaalbare GAN's met Transformers

Samenvatting

Schaalbaarheid heeft recente vooruitgang in generatieve modellering gestimuleerd, maar de principes ervan blijven onderbelicht voor adversariële leerprocessen. Wij onderzoeken de schaalbaarheid van Generative Adversarial Networks (GANs) aan de hand van twee ontwerpkeuzes die effectief zijn gebleken in andere soorten generatieve modellen: trainen in een compacte latent space van Variational Autoencoders en het gebruik van puur transformer-gebaseerde generators en discriminators. Trainen in de latent space maakt efficiënte berekeningen mogelijk terwijl de perceptuele kwaliteit behouden blijft, en deze efficiëntie past natuurlijk bij plain transformers, waarvan de prestaties schalen met het rekenbudget. Op basis van deze keuzes analyseren we faalmodi die ontstaan bij het naïef opschalen van GANs. Specifiek vinden we problemen zoals onderbenutting van vroege lagen in de generator en instabiliteit in de optimalisatie naarmate het netwerk schaalt. Daarom bieden we eenvoudige en schaalvriendelijke oplossingen, zoals lichtgewicht tussentijdse supervisie en breedtebewuste aanpassing van de leerfrequentie. Onze experimenten tonen aan dat GAT, een puur transformer-gebaseerde en latent-space GAN, betrouwbaar en eenvoudig getraind kan worden over een breed scala aan capaciteiten (S tot XL). Bovendien behaalt GAT-XL/2 state-of-the-art prestaties voor single-step, klasse-conditionele generatie (FID van 2,96) op ImageNet-256 in slechts 40 epochs, wat 6x minder epochs is dan sterke baselines.

English

Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.

Schaalbare GAN's met Transformers

Scalable GANs with Transformers

Samenvatting

Support