De GAN is dood; leve de GAN! Een moderne GAN-baseline
The GAN is dead; long live the GAN! A Modern GAN Baseline
January 9, 2025
Auteurs: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI
Samenvatting
Er wordt veel beweerd dat GANs moeilijk te trainen zijn en GAN-architecturen in de literatuur vol zitten met empirische trucs. Wij leveren bewijs tegen deze bewering en bouwen een moderne GAN-baseline op een meer principiële manier. Ten eerste leiden we een goed-gedragen geregulariseerde relativistische GAN-loss af die problemen van modusverlies en niet-convergentie aanpakt die eerder werden aangepakt met een verzameling ad-hoc trucs. We analyseren onze loss mathematisch en bewijzen dat deze lokale convergentiegaranties biedt, in tegenstelling tot de meeste bestaande relativistische losses. Ten tweede stelt onze nieuwe loss ons in staat om alle ad-hoc trucs te verwerpen en verouderde backbones die worden gebruikt in gangbare GANs te vervangen door moderne architecturen. Met StyleGAN2 als voorbeeld presenteren we een routekaart van vereenvoudiging en modernisering die resulteert in een nieuwe minimalistische baseline - R3GAN. Ondanks de eenvoud van onze aanpak overtreft deze StyleGAN2 op FFHQ, ImageNet, CIFAR en Stacked MNIST datasets, en presteert deze gunstig in vergelijking met state-of-the-art GANs en diffusiemodellen.
English
There is a widely-spread claim that GANs are difficult to train, and GAN
architectures in the literature are littered with empirical tricks. We provide
evidence against this claim and build a modern GAN baseline in a more
principled manner. First, we derive a well-behaved regularized relativistic GAN
loss that addresses issues of mode dropping and non-convergence that were
previously tackled via a bag of ad-hoc tricks. We analyze our loss
mathematically and prove that it admits local convergence guarantees, unlike
most existing relativistic losses. Second, our new loss allows us to discard
all ad-hoc tricks and replace outdated backbones used in common GANs with
modern architectures. Using StyleGAN2 as an example, we present a roadmap of
simplification and modernization that results in a new minimalist baseline --
R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ,
ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against
state-of-the-art GANs and diffusion models.Summary
AI-Generated Summary