段階的一貫性モデルPhased Consistency Model
一貫性モデル(CM)は最近、拡散モデルの生成速度を大幅に加速させることに成功しました。しかし、潜在空間における高解像度のテキスト条件付き画像生成(通称LCM)への応用は、まだ満足のいくものではありません。本論文では、現在のLCM設計における3つの主要な欠陥を特定します。これらの制限の背後にある理由を調査し、設計空間を一般化し、特定されたすべての制限に対処する段階的一貫性モデル(PCM)を提案します。評価の結果、PCMは1〜16ステップの生成設定においてLCMを大幅に上回ることが示されました。PCMは多段階の精緻化を特に念頭に置いて設計されていますが、1ステップ生成においても、従来の最先端の1ステップ専用手法と同等かそれ以上の結果を達成します。さらに、PCMの方法論は汎用性が高く、ビデオ生成にも適用可能であり、これにより最先端の少ステップテキスト・トゥ・ビデオ生成器を訓練することができました。詳細はhttps://g-u-n.github.io/projects/pcm/をご覧ください。