트랜스포머 기반 확장 가능한 GANs
Scalable GANs with Transformers
September 29, 2025
저자: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI
초록
확장성은 최근 생성 모델링의 발전을 이끌어왔지만, 적대적 학습에 대한 그 원칙은 아직 충분히 탐구되지 않았습니다. 우리는 생성적 적대 신경망(GANs)의 확장성을 두 가지 설계 선택을 통해 조사합니다. 이 선택들은 다른 유형의 생성 모델에서 효과적임이 입증된 바 있습니다: 컴팩트한 변분 오토인코더 잠재 공간에서의 학습과 순수 트랜스포머 기반 생성기 및 판별기의 채택입니다. 잠재 공간에서의 학습은 지각적 충실도를 유지하면서도 효율적인 계산을 가능하게 하며, 이러한 효율성은 계산 예산에 따라 성능이 확장되는 평범한 트랜스포머와 자연스럽게 결합됩니다. 이러한 선택을 바탕으로, 우리는 GANs를 단순히 확장할 때 발생하는 실패 모드를 분석합니다. 특히, 생성기의 초기 층의 활용 부족과 네트워크 확장 시 최적화 불안정성 문제를 발견했습니다. 이에 따라, 우리는 경량 중간 감독과 너비 인식 학습률 조정과 같은 간단하고 확장에 친화적인 해결책을 제시합니다. 우리의 실험은 순수 트랜스포머 기반 및 잠재 공간 GANs인 GAT가 다양한 용량(S부터 XL까지)에 걸쳐 쉽고 안정적으로 학습될 수 있음을 보여줍니다. 더 나아가, GAT-XL/2는 ImageNet-256에서 단일 단계, 클래스 조건부 생성 성능(FID 2.96)에서 최첨단 성능을 달성하며, 이는 강력한 기준선보다 6배 적은 40 에포크만에 이루어졌습니다.
English
Scalability has driven recent advances in generative modeling, yet its
principles remain underexplored for adversarial learning. We investigate the
scalability of Generative Adversarial Networks (GANs) through two design
choices that have proven to be effective in other types of generative models:
training in a compact Variational Autoencoder latent space and adopting purely
transformer-based generators and discriminators. Training in latent space
enables efficient computation while preserving perceptual fidelity, and this
efficiency pairs naturally with plain transformers, whose performance scales
with computational budget. Building on these choices, we analyze failure modes
that emerge when naively scaling GANs. Specifically, we find issues as
underutilization of early layers in the generator and optimization instability
as the network scales. Accordingly, we provide simple and scale-friendly
solutions as lightweight intermediate supervision and width-aware learning-rate
adjustment. Our experiments show that GAT, a purely transformer-based and
latent-space GANs, can be easily trained reliably across a wide range of
capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art
single-step, class-conditional generation performance (FID of 2.96) on
ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.