직접 판별 최적화: 당신의 가능도 기반 시각적 생성 모델은 사실 GAN 판별기입니다
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator
March 3, 2025
저자: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI
초록
가능도 기반 생성 모델, 특히 확산 모델과 자기회귀 모델은 시각적 생성에서 뛰어난 충실도를 달성했지만, 최대가능도 추정(MLE) 목표 함수는 본질적으로 모드 커버링 경향성을 가지고 있어 제한된 모델 용량 하에서 생성 품질을 제한합니다. 본 연구에서는 이러한 근본적인 제약을 우회하기 위해 가능도 기반 생성 학습과 GAN 목표 함수를 연결하는 통합 프레임워크로서 직접 판별 최적화(Direct Discriminative Optimization, DDO)를 제안합니다. 우리의 핵심 통찰은 학습 가능한 목표 모델과 고정된 참조 모델 간의 가능도 비율을 사용하여 판별자를 암묵적으로 매개변수화하는 것으로, 직접 선호 최적화(Direct Preference Optimization, DPO)의 철학과 유사성을 가집니다. GAN과 달리, 이러한 매개변수화는 생성기와 판별기 네트워크의 공동 학습 필요성을 제거하여, MLE의 한계를 넘어 잘 학습된 모델을 직접적이고 효율적이며 효과적으로 미세 조정할 수 있게 합니다. DDO는 자기 주도 방식으로 반복적으로 수행되어 점진적인 모델 개선이 가능하며, 각 라운드에서 사전 학습 epoch의 1% 미만만 필요로 합니다. 우리의 실험은 DDO의 효과를 입증하며, CIFAR-10/ImageNet-64 데이터셋에서 이전 SOTA 확산 모델인 EDM의 FID 점수를 1.79/1.58에서 새로운 기록인 1.30/0.97로 크게 개선하고, ImageNet 256×256에서 시각적 자기회귀 모델의 가이드 없는 FID와 CFG 강화 FID를 모두 일관되게 향상시켰습니다.
English
While likelihood-based generative models, particularly diffusion and
autoregressive models, have achieved remarkable fidelity in visual generation,
the maximum likelihood estimation (MLE) objective inherently suffers from a
mode-covering tendency that limits the generation quality under limited model
capacity. In this work, we propose Direct Discriminative Optimization (DDO) as
a unified framework that bridges likelihood-based generative training and the
GAN objective to bypass this fundamental constraint. Our key insight is to
parameterize a discriminator implicitly using the likelihood ratio between a
learnable target model and a fixed reference model, drawing parallels with the
philosophy of Direct Preference Optimization (DPO). Unlike GANs, this
parameterization eliminates the need for joint training of generator and
discriminator networks, allowing for direct, efficient, and effective
finetuning of a well-trained model to its full potential beyond the limits of
MLE. DDO can be performed iteratively in a self-play manner for progressive
model refinement, with each round requiring less than 1% of pretraining epochs.
Our experiments demonstrate the effectiveness of DDO by significantly advancing
the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to
new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently
improving both guidance-free and CFG-enhanced FIDs of visual autoregressive
models on ImageNet 256times256.Summary
AI-Generated Summary