Schaalbare GAN's met Transformers
Scalable GANs with Transformers
September 29, 2025
Auteurs: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI
Samenvatting
Schaalbaarheid heeft recente vooruitgang in generatieve modellering gestimuleerd, maar de principes ervan blijven onderbelicht voor adversariële leerprocessen. Wij onderzoeken de schaalbaarheid van Generative Adversarial Networks (GANs) aan de hand van twee ontwerpkeuzes die effectief zijn gebleken in andere soorten generatieve modellen: trainen in een compacte latent space van Variational Autoencoders en het gebruik van puur transformer-gebaseerde generators en discriminators. Trainen in de latent space maakt efficiënte berekeningen mogelijk terwijl de perceptuele kwaliteit behouden blijft, en deze efficiëntie past natuurlijk bij plain transformers, waarvan de prestaties schalen met het rekenbudget. Op basis van deze keuzes analyseren we faalmodi die ontstaan bij het naïef opschalen van GANs. Specifiek vinden we problemen zoals onderbenutting van vroege lagen in de generator en instabiliteit in de optimalisatie naarmate het netwerk schaalt. Daarom bieden we eenvoudige en schaalvriendelijke oplossingen, zoals lichtgewicht tussentijdse supervisie en breedtebewuste aanpassing van de leerfrequentie. Onze experimenten tonen aan dat GAT, een puur transformer-gebaseerde en latent-space GAN, betrouwbaar en eenvoudig getraind kan worden over een breed scala aan capaciteiten (S tot XL). Bovendien behaalt GAT-XL/2 state-of-the-art prestaties voor single-step, klasse-conditionele generatie (FID van 2,96) op ImageNet-256 in slechts 40 epochs, wat 6x minder epochs is dan sterke baselines.
English
Scalability has driven recent advances in generative modeling, yet its
principles remain underexplored for adversarial learning. We investigate the
scalability of Generative Adversarial Networks (GANs) through two design
choices that have proven to be effective in other types of generative models:
training in a compact Variational Autoencoder latent space and adopting purely
transformer-based generators and discriminators. Training in latent space
enables efficient computation while preserving perceptual fidelity, and this
efficiency pairs naturally with plain transformers, whose performance scales
with computational budget. Building on these choices, we analyze failure modes
that emerge when naively scaling GANs. Specifically, we find issues as
underutilization of early layers in the generator and optimization instability
as the network scales. Accordingly, we provide simple and scale-friendly
solutions as lightweight intermediate supervision and width-aware learning-rate
adjustment. Our experiments show that GAT, a purely transformer-based and
latent-space GANs, can be easily trained reliably across a wide range of
capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art
single-step, class-conditional generation performance (FID of 2.96) on
ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.