Optimización Discriminativa Directa: Tu Modelo Generativo Visual Basado en Verosimilitud es en Realidad un Discriminador de GAN
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator
March 3, 2025
Autores: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI
Resumen
Si bien los modelos generativos basados en verosimilitud, particularmente los modelos de difusión y autoregresivos, han logrado una fidelidad notable en la generación visual, el objetivo de estimación de máxima verosimilitud (MLE) inherentemente sufre de una tendencia a cubrir modos que limita la calidad de la generación bajo una capacidad de modelo limitada. En este trabajo, proponemos la Optimización Discriminativa Directa (DDO) como un marco unificado que conecta el entrenamiento generativo basado en verosimilitud con el objetivo de GAN para superar esta restricción fundamental. Nuestra idea clave es parametrizar un discriminador implícitamente utilizando la razón de verosimilitud entre un modelo objetivo aprendible y un modelo de referencia fijo, estableciendo paralelismos con la filosofía de la Optimización Directa de Preferencias (DPO). A diferencia de las GAN, esta parametrización elimina la necesidad de entrenamiento conjunto de redes generadoras y discriminadoras, permitiendo un ajuste fino directo, eficiente y efectivo de un modelo bien entrenado para alcanzar su máximo potencial más allá de los límites del MLE. DDO puede realizarse de manera iterativa en un enfoque de autojuego para el refinamiento progresivo del modelo, requiriendo cada ronda menos del 1% de las épocas de preentrenamiento. Nuestros experimentos demuestran la efectividad de DDO al avanzar significativamente el modelo de difusión EDM anterior, reduciendo las puntuaciones FID de 1.79/1.58 a nuevos récords de 1.30/0.97 en los conjuntos de datos CIFAR-10/ImageNet-64, y mejorando consistentemente tanto los FID sin guía como los mejorados con CFG de modelos autoregresivos visuales en ImageNet 256x256.
English
While likelihood-based generative models, particularly diffusion and
autoregressive models, have achieved remarkable fidelity in visual generation,
the maximum likelihood estimation (MLE) objective inherently suffers from a
mode-covering tendency that limits the generation quality under limited model
capacity. In this work, we propose Direct Discriminative Optimization (DDO) as
a unified framework that bridges likelihood-based generative training and the
GAN objective to bypass this fundamental constraint. Our key insight is to
parameterize a discriminator implicitly using the likelihood ratio between a
learnable target model and a fixed reference model, drawing parallels with the
philosophy of Direct Preference Optimization (DPO). Unlike GANs, this
parameterization eliminates the need for joint training of generator and
discriminator networks, allowing for direct, efficient, and effective
finetuning of a well-trained model to its full potential beyond the limits of
MLE. DDO can be performed iteratively in a self-play manner for progressive
model refinement, with each round requiring less than 1% of pretraining epochs.
Our experiments demonstrate the effectiveness of DDO by significantly advancing
the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to
new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently
improving both guidance-free and CFG-enhanced FIDs of visual autoregressive
models on ImageNet 256times256.Summary
AI-Generated Summary