Skalierbare GANs mit Transformern
Scalable GANs with Transformers
September 29, 2025
papers.authors: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI
papers.abstract
Skalierbarkeit hat die jüngsten Fortschritte im Bereich des generativen Modellierens vorangetrieben, doch ihre Prinzipien bleiben im Bereich des adversariellen Lernens weitgehend unerforscht. Wir untersuchen die Skalierbarkeit von Generative Adversarial Networks (GANs) anhand von zwei Designentscheidungen, die sich bei anderen Arten von generativen Modellen als effektiv erwiesen haben: das Training in einem kompakten latenten Raum von Variational Autoencodern und die Verwendung rein transformer-basierter Generatoren und Diskriminatoren. Das Training im latenten Raum ermöglicht eine effiziente Berechnung bei gleichzeitiger Wahrung der wahrnehmungsbezogenen Treue, und diese Effizienz passt natürlich zu einfachen Transformern, deren Leistung mit dem Rechenbudget skaliert. Aufbauend auf diesen Entscheidungen analysieren wir Fehlermodi, die auftreten, wenn GANs naiv skaliert werden. Insbesondere stellen wir Probleme wie die Unterauslastung früher Schichten im Generator und Optimierungsinstabilität bei der Skalierung des Netzwerks fest. Dementsprechend bieten wir einfache und skalierungsfreundliche Lösungen wie leichtgewichtige Zwischenüberwachung und breitenabhängige Lernratenanpassung. Unsere Experimente zeigen, dass GAT, ein rein transformer-basiertes und im latenten Raum trainiertes GAN, zuverlässig über einen weiten Bereich von Kapazitäten (S bis XL) trainiert werden kann. Darüber hinaus erreicht GAT-XL/2 mit nur 40 Epochen eine state-of-the-art Leistung bei der einstufigen, klassenbedingten Generierung (FID von 2,96) auf ImageNet-256, was 6-mal weniger Epochen als starke Baselines erfordert.
English
Scalability has driven recent advances in generative modeling, yet its
principles remain underexplored for adversarial learning. We investigate the
scalability of Generative Adversarial Networks (GANs) through two design
choices that have proven to be effective in other types of generative models:
training in a compact Variational Autoencoder latent space and adopting purely
transformer-based generators and discriminators. Training in latent space
enables efficient computation while preserving perceptual fidelity, and this
efficiency pairs naturally with plain transformers, whose performance scales
with computational budget. Building on these choices, we analyze failure modes
that emerge when naively scaling GANs. Specifically, we find issues as
underutilization of early layers in the generator and optimization instability
as the network scales. Accordingly, we provide simple and scale-friendly
solutions as lightweight intermediate supervision and width-aware learning-rate
adjustment. Our experiments show that GAT, a purely transformer-based and
latent-space GANs, can be easily trained reliably across a wide range of
capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art
single-step, class-conditional generation performance (FID of 2.96) on
ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.