ChatPaper.aiChatPaper

Die GAN ist tot; es lebe die GAN! Ein moderner GAN-Benchmark.

The GAN is dead; long live the GAN! A Modern GAN Baseline

January 9, 2025
Autoren: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI

Zusammenfassung

Es gibt eine weit verbreitete Behauptung, dass GANs schwer zu trainieren sind und GAN-Architekturen in der Literatur mit empirischen Tricks übersät sind. Wir liefern Beweise gegen diese Behauptung und erstellen eine moderne GAN-Basislinie auf eine fundiertere Weise. Zunächst leiten wir einen gut verhaltenden regulierten relativistischen GAN-Verlust her, der Probleme wie Modusausfälle und Nicht-Konvergenz angeht, die zuvor mit einer Vielzahl von Ad-hoc-Tricks gelöst wurden. Wir analysieren unseren Verlust mathematisch und zeigen, dass er lokale Konvergenzgarantien bietet, im Gegensatz zu den meisten bestehenden relativistischen Verlusten. Zweitens ermöglicht es uns unser neuer Verlust, alle Ad-hoc-Tricks zu verwerfen und veraltete Grundstrukturen, die in gängigen GANs verwendet werden, durch moderne Architekturen zu ersetzen. Anhand von StyleGAN2 als Beispiel präsentieren wir einen Weg der Vereinfachung und Modernisierung, der zu einer neuen minimalistischen Basislinie führt - R3GAN. Trotz ihrer Einfachheit übertrifft unsere Methode StyleGAN2 auf den Datensätzen FFHQ, ImageNet, CIFAR und Stacked MNIST und schneidet im Vergleich zu modernsten GANs und Diffusionsmodellen gut ab.
English
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

Summary

AI-Generated Summary

PDF915January 10, 2025