GANs Escalables con Transformers
Scalable GANs with Transformers
September 29, 2025
Autores: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI
Resumen
La escalabilidad ha impulsado los avances recientes en modelado generativo, sin embargo, sus principios siguen siendo poco explorados en el aprendizaje adversarial. Investigamos la escalabilidad de las Redes Generativas Adversarias (GANs) a través de dos decisiones de diseño que han demostrado ser efectivas en otros tipos de modelos generativos: entrenamiento en un espacio latente compacto de Autoencoders Variacionales y la adopción de generadores y discriminadores basados exclusivamente en transformadores. El entrenamiento en el espacio latente permite un cálculo eficiente mientras se preserva la fidelidad perceptual, y esta eficiencia se combina naturalmente con transformadores simples, cuyo rendimiento escala con el presupuesto computacional. Basándonos en estas decisiones, analizamos los modos de fallo que surgen al escalar GANs de manera ingenua. Específicamente, encontramos problemas como la subutilización de las capas iniciales en el generador y la inestabilidad en la optimización a medida que la red escala. En consecuencia, ofrecemos soluciones simples y compatibles con la escalabilidad, como una supervisión intermedia ligera y ajustes en la tasa de aprendizaje conscientes del ancho. Nuestros experimentos muestran que GAT, una GAN basada exclusivamente en transformadores y en espacio latente, puede entrenarse de manera confiable y fácil en un amplio rango de capacidades (desde S hasta XL). Además, GAT-XL/2 logra un rendimiento de generación condicional a clases de un solo paso de última generación (FID de 2.96) en ImageNet-256 en solo 40 épocas, 6 veces menos épocas que los baselines más robustos.
English
Scalability has driven recent advances in generative modeling, yet its
principles remain underexplored for adversarial learning. We investigate the
scalability of Generative Adversarial Networks (GANs) through two design
choices that have proven to be effective in other types of generative models:
training in a compact Variational Autoencoder latent space and adopting purely
transformer-based generators and discriminators. Training in latent space
enables efficient computation while preserving perceptual fidelity, and this
efficiency pairs naturally with plain transformers, whose performance scales
with computational budget. Building on these choices, we analyze failure modes
that emerge when naively scaling GANs. Specifically, we find issues as
underutilization of early layers in the generator and optimization instability
as the network scales. Accordingly, we provide simple and scale-friendly
solutions as lightweight intermediate supervision and width-aware learning-rate
adjustment. Our experiments show that GAT, a purely transformer-based and
latent-space GANs, can be easily trained reliably across a wide range of
capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art
single-step, class-conditional generation performance (FID of 2.96) on
ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.