ChatPaper.aiChatPaper

GANs Escaláveis com Transformers

Scalable GANs with Transformers

September 29, 2025
Autores: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI

Resumo

A escalabilidade tem impulsionado avanços recentes na modelagem generativa, mas seus princípios permanecem pouco explorados no aprendizado adversário. Investigamos a escalabilidade de Redes Generativas Adversariais (GANs) por meio de duas escolhas de projeto que se mostraram eficazes em outros tipos de modelos generativos: treinamento em um espaço latente compacto de Autoencoders Variacionais e a adoção de geradores e discriminadores baseados exclusivamente em transformadores. O treinamento no espaço latente permite computação eficiente enquanto preserva a fidelidade perceptual, e essa eficiência combina naturalmente com transformadores simples, cujo desempenho escala com o orçamento computacional. Com base nessas escolhas, analisamos modos de falha que surgem ao escalar GANs de forma ingênua. Especificamente, identificamos problemas como a subutilização de camadas iniciais no gerador e instabilidade de otimização à medida que a rede escala. Consequentemente, oferecemos soluções simples e adequadas à escala, como supervisão intermediária leve e ajuste de taxa de aprendizado consciente da largura. Nossos experimentos mostram que o GAT, uma GAN baseada exclusivamente em transformadores e no espaço latente, pode ser treinado de forma confiável e fácil em uma ampla gama de capacidades (de S a XL). Além disso, o GAT-XL/2 alcança desempenho de geração condicional por classe em uma única etapa (FID de 2,96) de última geração no ImageNet-256 em apenas 40 épocas, 6 vezes menos épocas do que as linhas de base fortes.
English
Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.
PDF32October 1, 2025