ChatPaper.aiChatPaper

GANs évolutifs avec Transformers

Scalable GANs with Transformers

September 29, 2025
papers.authors: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI

papers.abstract

L'évolutivité a été un moteur des récents progrès en modélisation générative, mais ses principes restent peu explorés dans le cadre de l'apprentissage adversarial. Nous étudions l'évolutivité des réseaux antagonistes génératifs (GANs) à travers deux choix de conception qui se sont avérés efficaces dans d'autres types de modèles génératifs : l'entraînement dans un espace latent compact de type Variational Autoencoder et l'adoption de générateurs et discriminateurs basés exclusivement sur des transformeurs. L'entraînement dans l'espace latent permet un calcul efficace tout en préservant la fidélité perceptuelle, et cette efficacité s'associe naturellement avec des transformeurs simples, dont les performances évoluent avec le budget de calcul. En nous appuyant sur ces choix, nous analysons les modes d'échec qui émergent lors d'une mise à l'échelle naïve des GANs. Plus précisément, nous identifions des problèmes tels que la sous-utilisation des couches initiales du générateur et l'instabilité de l'optimisation à mesure que le réseau grandit. En conséquence, nous proposons des solutions simples et adaptées à la mise à l'échelle, comme une supervision intermédiaire légère et un ajustement du taux d'apprentissage en fonction de la largeur du réseau. Nos expériences montrent que GAT, un GAN basé exclusivement sur des transformeurs et opérant dans l'espace latent, peut être entraîné de manière fiable sur une large gamme de capacités (de S à XL). De plus, GAT-XL/2 atteint des performances de pointe en génération conditionnelle par classe en une seule étape (FID de 2,96) sur ImageNet-256 en seulement 40 époques, soit 6 fois moins d'époques que les modèles de référence.
English
Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.
PDF12October 1, 2025