ChatPaper.aiChatPaper

直接識別最適化:尤度ベースの視覚生成モデルは実はGANの識別器だった

Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

March 3, 2025
著者: Kaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang
cs.AI

要旨

尤度ベースの生成モデル、特に拡散モデルと自己回帰モデルは、視覚生成において驚異的な忠実度を達成してきましたが、最尤推定(MLE)目的関数は本質的にモードカバー傾向を抱えており、限られたモデル容量下での生成品質を制限しています。本研究では、この根本的な制約を回避するために、尤度ベースの生成学習とGAN目的関数を橋渡しする統一フレームワークとして、直接識別最適化(Direct Discriminative Optimization, DDO)を提案します。我々の重要な洞察は、学習可能なターゲットモデルと固定された参照モデル間の尤度比を用いて識別器を暗黙的にパラメータ化することであり、これは直接選好最適化(Direct Preference Optimization, DPO)の哲学と類似しています。GANとは異なり、このパラメータ化により生成器と識別器のネットワークを共同で訓練する必要がなくなり、MLEの限界を超えて十分に訓練されたモデルを直接、効率的かつ効果的に微調整することが可能になります。DDOは自己プレイ方式で反復的に実行でき、各ラウンドで事前訓練エポックの1%未満の計算量で段階的なモデル改善が可能です。我々の実験では、DDOの有効性を実証し、CIFAR-10/ImageNet-64データセットにおいて、従来のSOTA拡散モデルEDMのFIDスコアを1.79/1.58から新記録の1.30/0.97に大幅に改善し、ImageNet 256×256における視覚自己回帰モデルのガイダンスなしおよびCFG強化FIDを一貫して向上させました。
English
While likelihood-based generative models, particularly diffusion and autoregressive models, have achieved remarkable fidelity in visual generation, the maximum likelihood estimation (MLE) objective inherently suffers from a mode-covering tendency that limits the generation quality under limited model capacity. In this work, we propose Direct Discriminative Optimization (DDO) as a unified framework that bridges likelihood-based generative training and the GAN objective to bypass this fundamental constraint. Our key insight is to parameterize a discriminator implicitly using the likelihood ratio between a learnable target model and a fixed reference model, drawing parallels with the philosophy of Direct Preference Optimization (DPO). Unlike GANs, this parameterization eliminates the need for joint training of generator and discriminator networks, allowing for direct, efficient, and effective finetuning of a well-trained model to its full potential beyond the limits of MLE. DDO can be performed iteratively in a self-play manner for progressive model refinement, with each round requiring less than 1% of pretraining epochs. Our experiments demonstrate the effectiveness of DDO by significantly advancing the previous SOTA diffusion model EDM, reducing FID scores from 1.79/1.58 to new records of 1.30/0.97 on CIFAR-10/ImageNet-64 datasets, and by consistently improving both guidance-free and CFG-enhanced FIDs of visual autoregressive models on ImageNet 256times256.

Summary

AI-Generated Summary

PDF32March 4, 2025