ガイダンスなしのビジュアル生成
Visual Generation Without Guidance
January 26, 2025
著者: Huayu Chen, Kai Jiang, Kaiwen Zheng, Jianfei Chen, Hang Su, Jun Zhu
cs.AI
要旨
Classifier-Free Guidance(CFG)はさまざまなビジュアル生成モデルでデフォルトの手法となっていますが、サンプリング時に条件付きモデルと非条件付きモデルの両方からの推論が必要です。私たちは、ガイド付きサンプリングから解放されたビジュアルモデルを構築することを提案します。その結果として得られるアルゴリズム、Guidance-Free Training(GFT)は、サンプリングを単一モデルに削減しながらCFGと同等の性能を達成し、計算コストを半減させます。事前に訓練されたCFGネットワークに依存する従来の蒸留ベースの手法とは異なり、GFTはゼロから直接トレーニングを可能にします。GFTは実装が簡単で、CFGと同じ最尤推定目的を保持しており、主に条件付きモデルのパラメータ化が異なります。GFTの実装には、既存のコードベースにほとんどの変更が必要であり、ほとんどの設計選択肢とハイパーパラメータはCFGから直接継承されます。私たちが行った5つの異なるビジュアルモデルにまたがる幅広い実験は、GFTの効果と汎用性を実証しています。拡散、自己回帰、マスク予測モデリングの領域を横断して、GFTは一貫して、CFGのベースラインと比較して類似またはより低いFIDスコアを達成し、同様の多様性-忠実度のトレードオフを実現しますが、ガイダンスフリーです。コードはhttps://github.com/thu-ml/GFTで入手可能です。
English
Classifier-Free Guidance (CFG) has been a default technique in various visual
generative models, yet it requires inference from both conditional and
unconditional models during sampling. We propose to build visual models that
are free from guided sampling. The resulting algorithm, Guidance-Free Training
(GFT), matches the performance of CFG while reducing sampling to a single
model, halving the computational cost. Unlike previous distillation-based
approaches that rely on pretrained CFG networks, GFT enables training directly
from scratch. GFT is simple to implement. It retains the same maximum
likelihood objective as CFG and differs mainly in the parameterization of
conditional models. Implementing GFT requires only minimal modifications to
existing codebases, as most design choices and hyperparameters are directly
inherited from CFG. Our extensive experiments across five distinct visual
models demonstrate the effectiveness and versatility of GFT. Across domains of
diffusion, autoregressive, and masked-prediction modeling, GFT consistently
achieves comparable or even lower FID scores, with similar diversity-fidelity
trade-offs compared with CFG baselines, all while being guidance-free. Code
will be available at https://github.com/thu-ml/GFT.Summary
AI-Generated Summary