ChatPaper.aiChatPaper

Skalierbare GANs mit Transformern

Scalable GANs with Transformers

September 29, 2025
papers.authors: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI

papers.abstract

Skalierbarkeit hat die jüngsten Fortschritte im Bereich des generativen Modellierens vorangetrieben, doch ihre Prinzipien bleiben im Bereich des adversariellen Lernens weitgehend unerforscht. Wir untersuchen die Skalierbarkeit von Generative Adversarial Networks (GANs) anhand von zwei Designentscheidungen, die sich bei anderen Arten von generativen Modellen als effektiv erwiesen haben: das Training in einem kompakten latenten Raum von Variational Autoencodern und die Verwendung rein transformer-basierter Generatoren und Diskriminatoren. Das Training im latenten Raum ermöglicht eine effiziente Berechnung bei gleichzeitiger Wahrung der wahrnehmungsbezogenen Treue, und diese Effizienz passt natürlich zu einfachen Transformern, deren Leistung mit dem Rechenbudget skaliert. Aufbauend auf diesen Entscheidungen analysieren wir Fehlermodi, die auftreten, wenn GANs naiv skaliert werden. Insbesondere stellen wir Probleme wie die Unterauslastung früher Schichten im Generator und Optimierungsinstabilität bei der Skalierung des Netzwerks fest. Dementsprechend bieten wir einfache und skalierungsfreundliche Lösungen wie leichtgewichtige Zwischenüberwachung und breitenabhängige Lernratenanpassung. Unsere Experimente zeigen, dass GAT, ein rein transformer-basiertes und im latenten Raum trainiertes GAN, zuverlässig über einen weiten Bereich von Kapazitäten (S bis XL) trainiert werden kann. Darüber hinaus erreicht GAT-XL/2 mit nur 40 Epochen eine state-of-the-art Leistung bei der einstufigen, klassenbedingten Generierung (FID von 2,96) auf ImageNet-256, was 6-mal weniger Epochen als starke Baselines erfordert.
English
Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.
PDF12October 1, 2025