Optimisation Discriminative Directe : Votre Modèle Génératif Visuel Basé sur la Vraisemblance est Secrètement un Discriminateur de GAN
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator
March 3, 2025
papers.authors: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI
papers.abstract
Bien que les modèles génératifs basés sur la vraisemblance, en particulier les modèles de diffusion et autoregressifs, aient atteint une fidélité remarquable en génération visuelle, l'objectif d'estimation du maximum de vraisemblance (MLE) souffre intrinsèquement d'une tendance à couvrir les modes qui limite la qualité de génération sous une capacité de modèle restreinte. Dans ce travail, nous proposons l'Optimisation Discriminative Directe (DDO) comme un cadre unifié qui relie l'entraînement génératif basé sur la vraisemblance et l'objectif des GAN pour contourner cette contrainte fondamentale. Notre idée clé est de paramétrer un discriminateur implicitement en utilisant le rapport de vraisemblance entre un modèle cible apprenable et un modèle de référence fixe, établissant un parallèle avec la philosophie de l'Optimisation Directe des Préférences (DPO). Contrairement aux GAN, cette paramétrisation élimine le besoin d'un entraînement conjoint des réseaux générateur et discriminateur, permettant un réglage fin direct, efficace et performant d'un modèle bien entraîné pour exploiter pleinement son potentiel au-delà des limites du MLE. DDO peut être effectué de manière itérative dans un cadre d'auto-joueur pour un raffinement progressif du modèle, chaque round nécessitant moins de 1% des époques de pré-entraînement. Nos expériences démontrent l'efficacité de DDO en améliorant significativement le modèle de diffusion EDM précédemment SOTA, réduisant les scores FID de 1,79/1,58 à de nouveaux records de 1,30/0,97 sur les ensembles de données CIFAR-10/ImageNet-64, et en améliorant de manière constante les FID sans guidance et améliorés par CFG des modèles autoregressifs visuels sur ImageNet 256x256.
English
While likelihood-based generative models, particularly diffusion and
autoregressive models, have achieved remarkable fidelity in visual generation,
the maximum likelihood estimation (MLE) objective inherently suffers from a
mode-covering tendency that limits the generation quality under limited model
capacity. In this work, we propose Direct Discriminative Optimization (DDO) as
a unified framework that bridges likelihood-based generative training and the
GAN objective to bypass this fundamental constraint. Our key insight is to
parameterize a discriminator implicitly using the likelihood ratio between a
learnable target model and a fixed reference model, drawing parallels with the
philosophy of Direct Preference Optimization (DPO). Unlike GANs, this
parameterization eliminates the need for joint training of generator and
discriminator networks, allowing for direct, efficient, and effective
finetuning of a well-trained model to its full potential beyond the limits of
MLE. DDO can be performed iteratively in a self-play manner for progressive
model refinement, with each round requiring less than 1% of pretraining epochs.
Our experiments demonstrate the effectiveness of DDO by significantly advancing
the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to
new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently
improving both guidance-free and CFG-enhanced FIDs of visual autoregressive
models on ImageNet 256times256.