ChatPaper.aiChatPaper

¡El GAN ha muerto; larga vida al GAN! Una línea base moderna de GAN

The GAN is dead; long live the GAN! A Modern GAN Baseline

January 9, 2025
Autores: Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin
cs.AI

Resumen

Existe una afirmación ampliamente difundida de que las GAN son difíciles de entrenar, y las arquitecturas de GAN en la literatura están llenas de trucos empíricos. Proporcionamos evidencia en contra de esta afirmación y construimos una línea base moderna de GAN de manera más fundamentada. En primer lugar, derivamos una pérdida de GAN relativista regularizada y bien comportada que aborda problemas de eliminación de modos y falta de convergencia que anteriormente se abordaban mediante un conjunto de trucos ad-hoc. Analizamos nuestra pérdida matemáticamente y demostramos que admite garantías de convergencia local, a diferencia de la mayoría de las pérdidas relativistas existentes. En segundo lugar, nuestra nueva pérdida nos permite desechar todos los trucos ad-hoc y reemplazar las estructuras obsoletas utilizadas en GAN comunes con arquitecturas modernas. Utilizando StyleGAN2 como ejemplo, presentamos una hoja de ruta de simplificación y modernización que resulta en una nueva línea base minimalista: R3GAN. A pesar de ser simple, nuestro enfoque supera a StyleGAN2 en conjuntos de datos como FFHQ, ImageNet, CIFAR y Stacked MNIST, y se compara favorablemente con GANs y modelos de difusión de última generación.
English
There is a widely-spread claim that GANs are difficult to train, and GAN architectures in the literature are littered with empirical tricks. We provide evidence against this claim and build a modern GAN baseline in a more principled manner. First, we derive a well-behaved regularized relativistic GAN loss that addresses issues of mode dropping and non-convergence that were previously tackled via a bag of ad-hoc tricks. We analyze our loss mathematically and prove that it admits local convergence guarantees, unlike most existing relativistic losses. Second, our new loss allows us to discard all ad-hoc tricks and replace outdated backbones used in common GANs with modern architectures. Using StyleGAN2 as an example, we present a roadmap of simplification and modernization that results in a new minimalist baseline -- R3GAN. Despite being simple, our approach surpasses StyleGAN2 on FFHQ, ImageNet, CIFAR, and Stacked MNIST datasets, and compares favorably against state-of-the-art GANs and diffusion models.

Summary

AI-Generated Summary

PDF915January 10, 2025