ChatPaper.aiChatPaper

De GAN is dood; leve de GAN! Een moderne GAN-baseline

The GAN is dead; long live the GAN! A Modern GAN Baseline

January 9, 2025
Auteurs: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI

Samenvatting

Er wordt veel beweerd dat GANs moeilijk te trainen zijn en GAN-architecturen in de literatuur vol zitten met empirische trucs. Wij leveren bewijs tegen deze bewering en bouwen een moderne GAN-baseline op een meer principiële manier. Ten eerste leiden we een goed-gedragen geregulariseerde relativistische GAN-loss af die problemen van modusverlies en niet-convergentie aanpakt die eerder werden aangepakt met een verzameling ad-hoc trucs. We analyseren onze loss mathematisch en bewijzen dat deze lokale convergentiegaranties biedt, in tegenstelling tot de meeste bestaande relativistische losses. Ten tweede stelt onze nieuwe loss ons in staat om alle ad-hoc trucs te verwerpen en verouderde backbones die worden gebruikt in gangbare GANs te vervangen door moderne architecturen. Met StyleGAN2 als voorbeeld presenteren we een routekaart van vereenvoudiging en modernisering die resulteert in een nieuwe minimalistische baseline - R3GAN. Ondanks de eenvoud van onze aanpak overtreft deze StyleGAN2 op FFHQ, ImageNet, CIFAR en Stacked MNIST datasets, en presteert deze gunstig in vergelijking met state-of-the-art GANs en diffusiemodellen.
English
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

Summary

AI-Generated Summary

PDF915January 10, 2025