GANs Escaláveis com Transformers
Scalable GANs with Transformers
September 29, 2025
Autores: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI
Resumo
A escalabilidade tem impulsionado avanços recentes na modelagem generativa, mas seus princípios permanecem pouco explorados no aprendizado adversário. Investigamos a escalabilidade de Redes Generativas Adversariais (GANs) por meio de duas escolhas de projeto que se mostraram eficazes em outros tipos de modelos generativos: treinamento em um espaço latente compacto de Autoencoders Variacionais e a adoção de geradores e discriminadores baseados exclusivamente em transformadores. O treinamento no espaço latente permite computação eficiente enquanto preserva a fidelidade perceptual, e essa eficiência combina naturalmente com transformadores simples, cujo desempenho escala com o orçamento computacional. Com base nessas escolhas, analisamos modos de falha que surgem ao escalar GANs de forma ingênua. Especificamente, identificamos problemas como a subutilização de camadas iniciais no gerador e instabilidade de otimização à medida que a rede escala. Consequentemente, oferecemos soluções simples e adequadas à escala, como supervisão intermediária leve e ajuste de taxa de aprendizado consciente da largura. Nossos experimentos mostram que o GAT, uma GAN baseada exclusivamente em transformadores e no espaço latente, pode ser treinado de forma confiável e fácil em uma ampla gama de capacidades (de S a XL). Além disso, o GAT-XL/2 alcança desempenho de geração condicional por classe em uma única etapa (FID de 2,96) de última geração no ImageNet-256 em apenas 40 épocas, 6 vezes menos épocas do que as linhas de base fortes.
English
Scalability has driven recent advances in generative modeling, yet its
principles remain underexplored for adversarial learning. We investigate the
scalability of Generative Adversarial Networks (GANs) through two design
choices that have proven to be effective in other types of generative models:
training in a compact Variational Autoencoder latent space and adopting purely
transformer-based generators and discriminators. Training in latent space
enables efficient computation while preserving perceptual fidelity, and this
efficiency pairs naturally with plain transformers, whose performance scales
with computational budget. Building on these choices, we analyze failure modes
that emerge when naively scaling GANs. Specifically, we find issues as
underutilization of early layers in the generator and optimization instability
as the network scales. Accordingly, we provide simple and scale-friendly
solutions as lightweight intermediate supervision and width-aware learning-rate
adjustment. Our experiments show that GAT, a purely transformer-based and
latent-space GANs, can be easily trained reliably across a wide range of
capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art
single-step, class-conditional generation performance (FID of 2.96) on
ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.