ChatPaper.aiChatPaper

ガイダンスなしのビジュアル生成

Visual Generation Without Guidance

January 26, 2025
著者: Huayu Chen, Kai Jiang, Kaiwen Zheng, Jianfei Chen, Hang Su, Jun Zhu
cs.AI

要旨

Classifier-Free Guidance(CFG)はさまざまなビジュアル生成モデルでデフォルトの手法となっていますが、サンプリング時に条件付きモデルと非条件付きモデルの両方からの推論が必要です。私たちは、ガイド付きサンプリングから解放されたビジュアルモデルを構築することを提案します。その結果として得られるアルゴリズム、Guidance-Free Training(GFT)は、サンプリングを単一モデルに削減しながらCFGと同等の性能を達成し、計算コストを半減させます。事前に訓練されたCFGネットワークに依存する従来の蒸留ベースの手法とは異なり、GFTはゼロから直接トレーニングを可能にします。GFTは実装が簡単で、CFGと同じ最尤推定目的を保持しており、主に条件付きモデルのパラメータ化が異なります。GFTの実装には、既存のコードベースにほとんどの変更が必要であり、ほとんどの設計選択肢とハイパーパラメータはCFGから直接継承されます。私たちが行った5つの異なるビジュアルモデルにまたがる幅広い実験は、GFTの効果と汎用性を実証しています。拡散、自己回帰、マスク予測モデリングの領域を横断して、GFTは一貫して、CFGのベースラインと比較して類似またはより低いFIDスコアを達成し、同様の多様性-忠実度のトレードオフを実現しますが、ガイダンスフリーです。コードはhttps://github.com/thu-ml/GFTで入手可能です。
English
Classifier-Free Guidance (CFG) has been a default technique in various visual generative models, yet it requires inference from both conditional and unconditional models during sampling. We propose to build visual models that are free from guided sampling. The resulting algorithm, Guidance-Free Training (GFT), matches the performance of CFG while reducing sampling to a single model, halving the computational cost. Unlike previous distillation-based approaches that rely on pretrained CFG networks, GFT enables training directly from scratch. GFT is simple to implement. It retains the same maximum likelihood objective as CFG and differs mainly in the parameterization of conditional models. Implementing GFT requires only minimal modifications to existing codebases, as most design choices and hyperparameters are directly inherited from CFG. Our extensive experiments across five distinct visual models demonstrate the effectiveness and versatility of GFT. Across domains of diffusion, autoregressive, and masked-prediction modeling, GFT consistently achieves comparable or even lower FID scores, with similar diversity-fidelity trade-offs compared with CFG baselines, all while being guidance-free. Code will be available at https://github.com/thu-ml/GFT.

Summary

AI-Generated Summary

PDF83January 28, 2025