GANs évolutifs avec Transformers
Scalable GANs with Transformers
September 29, 2025
papers.authors: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI
papers.abstract
L'évolutivité a été un moteur des récents progrès en modélisation générative, mais ses principes restent peu explorés dans le cadre de l'apprentissage adversarial. Nous étudions l'évolutivité des réseaux antagonistes génératifs (GANs) à travers deux choix de conception qui se sont avérés efficaces dans d'autres types de modèles génératifs : l'entraînement dans un espace latent compact de type Variational Autoencoder et l'adoption de générateurs et discriminateurs basés exclusivement sur des transformeurs. L'entraînement dans l'espace latent permet un calcul efficace tout en préservant la fidélité perceptuelle, et cette efficacité s'associe naturellement avec des transformeurs simples, dont les performances évoluent avec le budget de calcul. En nous appuyant sur ces choix, nous analysons les modes d'échec qui émergent lors d'une mise à l'échelle naïve des GANs. Plus précisément, nous identifions des problèmes tels que la sous-utilisation des couches initiales du générateur et l'instabilité de l'optimisation à mesure que le réseau grandit. En conséquence, nous proposons des solutions simples et adaptées à la mise à l'échelle, comme une supervision intermédiaire légère et un ajustement du taux d'apprentissage en fonction de la largeur du réseau. Nos expériences montrent que GAT, un GAN basé exclusivement sur des transformeurs et opérant dans l'espace latent, peut être entraîné de manière fiable sur une large gamme de capacités (de S à XL). De plus, GAT-XL/2 atteint des performances de pointe en génération conditionnelle par classe en une seule étape (FID de 2,96) sur ImageNet-256 en seulement 40 époques, soit 6 fois moins d'époques que les modèles de référence.
English
Scalability has driven recent advances in generative modeling, yet its
principles remain underexplored for adversarial learning. We investigate the
scalability of Generative Adversarial Networks (GANs) through two design
choices that have proven to be effective in other types of generative models:
training in a compact Variational Autoencoder latent space and adopting purely
transformer-based generators and discriminators. Training in latent space
enables efficient computation while preserving perceptual fidelity, and this
efficiency pairs naturally with plain transformers, whose performance scales
with computational budget. Building on these choices, we analyze failure modes
that emerge when naively scaling GANs. Specifically, we find issues as
underutilization of early layers in the generator and optimization instability
as the network scales. Accordingly, we provide simple and scale-friendly
solutions as lightweight intermediate supervision and width-aware learning-rate
adjustment. Our experiments show that GAT, a purely transformer-based and
latent-space GANs, can be easily trained reliably across a wide range of
capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art
single-step, class-conditional generation performance (FID of 2.96) on
ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.