ChatPaper.aiChatPaper

GANs Escalables con Transformers

Scalable GANs with Transformers

September 29, 2025
Autores: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI

Resumen

La escalabilidad ha impulsado los avances recientes en modelado generativo, sin embargo, sus principios siguen siendo poco explorados en el aprendizaje adversarial. Investigamos la escalabilidad de las Redes Generativas Adversarias (GANs) a través de dos decisiones de diseño que han demostrado ser efectivas en otros tipos de modelos generativos: entrenamiento en un espacio latente compacto de Autoencoders Variacionales y la adopción de generadores y discriminadores basados exclusivamente en transformadores. El entrenamiento en el espacio latente permite un cálculo eficiente mientras se preserva la fidelidad perceptual, y esta eficiencia se combina naturalmente con transformadores simples, cuyo rendimiento escala con el presupuesto computacional. Basándonos en estas decisiones, analizamos los modos de fallo que surgen al escalar GANs de manera ingenua. Específicamente, encontramos problemas como la subutilización de las capas iniciales en el generador y la inestabilidad en la optimización a medida que la red escala. En consecuencia, ofrecemos soluciones simples y compatibles con la escalabilidad, como una supervisión intermedia ligera y ajustes en la tasa de aprendizaje conscientes del ancho. Nuestros experimentos muestran que GAT, una GAN basada exclusivamente en transformadores y en espacio latente, puede entrenarse de manera confiable y fácil en un amplio rango de capacidades (desde S hasta XL). Además, GAT-XL/2 logra un rendimiento de generación condicional a clases de un solo paso de última generación (FID de 2.96) en ImageNet-256 en solo 40 épocas, 6 veces menos épocas que los baselines más robustos.
English
Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.
PDF12October 1, 2025