ChatPaper.aiChatPaper

트랜스포머 기반 확장 가능한 GANs

Scalable GANs with Transformers

September 29, 2025
저자: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo
cs.AI

초록

확장성은 최근 생성 모델링의 발전을 이끌어왔지만, 적대적 학습에 대한 그 원칙은 아직 충분히 탐구되지 않았습니다. 우리는 생성적 적대 신경망(GANs)의 확장성을 두 가지 설계 선택을 통해 조사합니다. 이 선택들은 다른 유형의 생성 모델에서 효과적임이 입증된 바 있습니다: 컴팩트한 변분 오토인코더 잠재 공간에서의 학습과 순수 트랜스포머 기반 생성기 및 판별기의 채택입니다. 잠재 공간에서의 학습은 지각적 충실도를 유지하면서도 효율적인 계산을 가능하게 하며, 이러한 효율성은 계산 예산에 따라 성능이 확장되는 평범한 트랜스포머와 자연스럽게 결합됩니다. 이러한 선택을 바탕으로, 우리는 GANs를 단순히 확장할 때 발생하는 실패 모드를 분석합니다. 특히, 생성기의 초기 층의 활용 부족과 네트워크 확장 시 최적화 불안정성 문제를 발견했습니다. 이에 따라, 우리는 경량 중간 감독과 너비 인식 학습률 조정과 같은 간단하고 확장에 친화적인 해결책을 제시합니다. 우리의 실험은 순수 트랜스포머 기반 및 잠재 공간 GANs인 GAT가 다양한 용량(S부터 XL까지)에 걸쳐 쉽고 안정적으로 학습될 수 있음을 보여줍니다. 더 나아가, GAT-XL/2는 ImageNet-256에서 단일 단계, 클래스 조건부 생성 성능(FID 2.96)에서 최첨단 성능을 달성하며, 이는 강력한 기준선보다 6배 적은 40 에포크만에 이루어졌습니다.
English
Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.
PDF12October 1, 2025