Les GAN sont morts ; vive les GAN ! Une référence moderne des GAN
The GAN is dead; long live the GAN! A Modern GAN Baseline
January 9, 2025
Auteurs: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI
Résumé
Il est largement affirmé que les GAN sont difficiles à entraîner, et les architectures de GAN dans la littérature regorgent de stratagèmes empiriques. Nous apportons des preuves contre cette affirmation et construisons une référence moderne de GAN de manière plus fondée. Tout d'abord, nous dérivons une perte de GAN relativiste régularisée bien comportée qui aborde les problèmes de suppression de mode et de non-convergence qui étaient précédemment traités via une série de stratagèmes ad hoc. Nous analysons mathématiquement notre perte et prouvons qu'elle admet des garanties de convergence locale, contrairement à la plupart des pertes relativistes existantes. Deuxièmement, notre nouvelle perte nous permet de nous débarrasser de tous les stratagèmes ad hoc et de remplacer les architectures obsolètes utilisées dans les GAN courants par des architectures modernes. En utilisant StyleGAN2 comme exemple, nous présentons une feuille de route de simplification et de modernisation qui aboutit à une nouvelle référence minimaliste - R3GAN. Malgré sa simplicité, notre approche surpasse StyleGAN2 sur les ensembles de données FFHQ, ImageNet, CIFAR et Stacked MNIST, et se compare favorablement aux GAN de pointe et aux modèles de diffusion.
English
There is a widely-spread claim that GANs are difficult to train, and GAN
architectures in the literature are littered with empirical tricks. We provide
evidence against this claim and build a modern GAN baseline in a more
principled manner. First, we derive a well-behaved regularized relativistic GAN
loss that addresses issues of mode dropping and non-convergence that were
previously tackled via a bag of ad-hoc tricks. We analyze our loss
mathematically and prove that it admits local convergence guarantees, unlike
most existing relativistic losses. Second, our new loss allows us to discard
all ad-hoc tricks and replace outdated backbones used in common GANs with
modern architectures. Using StyleGAN2 as an example, we present a roadmap of
simplification and modernization that results in a new minimalist baseline --
R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ,
ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against
state-of-the-art GANs and diffusion models.Summary
AI-Generated Summary