ChatPaper.aiChatPaper

Direkte Diskriminative Optimierung: Ihr Likelihood-basiertes visuelles Generatives Modell ist heimlich ein GAN-Diskriminator

Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

March 3, 2025
Autoren: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI

Zusammenfassung

Während wahrscheinlichkeitsbasierte generative Modelle, insbesondere Diffusions- und autoregressive Modelle, bemerkenswerte Detailtreue in der visuellen Generierung erreicht haben, leidet das Maximum-Likelihood-Schätzungsziel (MLE) inhärent unter einer Modus-Abdeckungstendenz, die die Generierungsqualität bei begrenzter Modellkapazität einschränkt. In dieser Arbeit schlagen wir Direct Discriminative Optimization (DDO) als einheitliches Framework vor, das wahrscheinlichkeitsbasiertes generatives Training und das GAN-Ziel verbindet, um diese grundlegende Einschränkung zu umgehen. Unsere zentrale Erkenntnis besteht darin, einen Diskriminator implizit zu parametrisieren, indem das Likelihood-Verhältnis zwischen einem lernbaren Zielmodell und einem festen Referenzmodell verwendet wird, was Parallelen zur Philosophie von Direct Preference Optimization (DPO) aufzeigt. Im Gegensatz zu GANs eliminiert diese Parametrisierung die Notwendigkeit einer gemeinsamen Training von Generator- und Diskriminator-Netzwerken, was eine direkte, effiziente und effektive Feinabstimmung eines gut trainierten Modells über die Grenzen von MLE hinaus ermöglicht. DDO kann iterativ in einer Selbstspielweise zur progressiven Modellverfeinerung durchgeführt werden, wobei jede Runde weniger als 1 % der Vortrainings-Epochen erfordert. Unsere Experimente demonstrieren die Wirksamkeit von DDO, indem sie das bisherige State-of-the-Art-Diffusionsmodell EDM erheblich verbessern, die FID-Werte von 1,79/1,58 auf neue Rekorde von 1,30/0,97 auf den CIFAR-10/ImageNet-64-Datensätzen reduzieren und sowohl die führungsfreien als auch die CFG-verbesserten FIDs von visuellen autoregressiven Modellen auf ImageNet 256×256 konsequent verbessern.
English
While likelihood-based generative models, particularly diffusion and autoregressive models, have achieved remarkable fidelity in visual generation, the maximum likelihood estimation (MLE) objective inherently suffers from a mode-covering tendency that limits the generation quality under limited model capacity. In this work, we propose Direct Discriminative Optimization (DDO) as a unified framework that bridges likelihood-based generative training and the GAN objective to bypass this fundamental constraint. Our key insight is to parameterize a discriminator implicitly using the likelihood ratio between a learnable target model and a fixed reference model, drawing parallels with the philosophy of Direct Preference Optimization (DPO). Unlike GANs, this parameterization eliminates the need for joint training of generator and discriminator networks, allowing for direct, efficient, and effective finetuning of a well-trained model to its full potential beyond the limits of MLE. DDO can be performed iteratively in a self-play manner for progressive model refinement, with each round requiring less than 1% of pretraining epochs. Our experiments demonstrate the effectiveness of DDO by significantly advancing the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently improving both guidance-free and CFG-enhanced FIDs of visual autoregressive models on ImageNet 256times256.

Summary

AI-Generated Summary

PDF32March 4, 2025