ChatPaper.aiChatPaper

GAN мертв; да здравствует GAN! Современный базовый уровень GAN

The GAN is dead; long live the GAN! A Modern GAN Baseline

January 9, 2025
Авторы: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI

Аннотация

Существует широко распространенное утверждение о том, что обучение генеративно-состязательных сетей (GAN) является сложным, и архитектуры GAN, представленные в литературе, полны эмпирических трюков. Мы предоставляем доказательства против этого утверждения и строим современную базовую модель GAN более принципиальным образом. Во-первых, мы вывели хорошо себя ведущую регуляризованную потерю релятивистского GAN, которая решает проблемы потери режимов и неконвергенции, которые ранее решались с помощью мешка ад-хок трюков. Мы математически проанализировали нашу потерю и доказали, что она обладает гарантиями локальной сходимости, в отличие от большинства существующих релятивистских потерь. Во-вторых, наша новая потеря позволяет нам отказаться от всех ад-хок трюков и заменить устаревшие основы, используемые в обычных GAN, современными архитектурами. Используя StyleGAN2 в качестве примера, мы представляем план упрощения и модернизации, который приводит к новой минималистической базовой модели - R3GAN. Несмотря на свою простоту, наш подход превосходит StyleGAN2 на наборах данных FFHQ, ImageNet, CIFAR и Stacked MNIST, и сравнительно успешен по сравнению с передовыми GAN и моделями диффузии.
English
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

Summary

AI-Generated Summary

PDF915January 10, 2025