ChatPaper.aiChatPaper

Optimisation Discriminative Directe : Votre Modèle Génératif Visuel Basé sur la Vraisemblance est Secrètement un Discriminateur de GAN

Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

March 3, 2025
papers.authors: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI

papers.abstract

Bien que les modèles génératifs basés sur la vraisemblance, en particulier les modèles de diffusion et autoregressifs, aient atteint une fidélité remarquable en génération visuelle, l'objectif d'estimation du maximum de vraisemblance (MLE) souffre intrinsèquement d'une tendance à couvrir les modes qui limite la qualité de génération sous une capacité de modèle restreinte. Dans ce travail, nous proposons l'Optimisation Discriminative Directe (DDO) comme un cadre unifié qui relie l'entraînement génératif basé sur la vraisemblance et l'objectif des GAN pour contourner cette contrainte fondamentale. Notre idée clé est de paramétrer un discriminateur implicitement en utilisant le rapport de vraisemblance entre un modèle cible apprenable et un modèle de référence fixe, établissant un parallèle avec la philosophie de l'Optimisation Directe des Préférences (DPO). Contrairement aux GAN, cette paramétrisation élimine le besoin d'un entraînement conjoint des réseaux générateur et discriminateur, permettant un réglage fin direct, efficace et performant d'un modèle bien entraîné pour exploiter pleinement son potentiel au-delà des limites du MLE. DDO peut être effectué de manière itérative dans un cadre d'auto-joueur pour un raffinement progressif du modèle, chaque round nécessitant moins de 1% des époques de pré-entraînement. Nos expériences démontrent l'efficacité de DDO en améliorant significativement le modèle de diffusion EDM précédemment SOTA, réduisant les scores FID de 1,79/1,58 à de nouveaux records de 1,30/0,97 sur les ensembles de données CIFAR-10/ImageNet-64, et en améliorant de manière constante les FID sans guidance et améliorés par CFG des modèles autoregressifs visuels sur ImageNet 256x256.
English
While likelihood-based generative models, particularly diffusion and autoregressive models, have achieved remarkable fidelity in visual generation, the maximum likelihood estimation (MLE) objective inherently suffers from a mode-covering tendency that limits the generation quality under limited model capacity. In this work, we propose Direct Discriminative Optimization (DDO) as a unified framework that bridges likelihood-based generative training and the GAN objective to bypass this fundamental constraint. Our key insight is to parameterize a discriminator implicitly using the likelihood ratio between a learnable target model and a fixed reference model, drawing parallels with the philosophy of Direct Preference Optimization (DPO). Unlike GANs, this parameterization eliminates the need for joint training of generator and discriminator networks, allowing for direct, efficient, and effective finetuning of a well-trained model to its full potential beyond the limits of MLE. DDO can be performed iteratively in a self-play manner for progressive model refinement, with each round requiring less than 1% of pretraining epochs. Our experiments demonstrate the effectiveness of DDO by significantly advancing the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently improving both guidance-free and CFG-enhanced FIDs of visual autoregressive models on ImageNet 256times256.
PDF52March 4, 2025