マルチステップ一貫性モデル
Multistep Consistency Models
March 11, 2024
著者: Jonathan Heek, Emiel Hoogeboom, Tim Salimans
cs.AI
要旨
拡散モデルは比較的学習が容易ですが、サンプル生成には多くのステップを要します。一方、一貫性モデルは学習がはるかに困難ですが、単一ステップでサンプルを生成します。
本論文では、マルチステップ一貫性モデルを提案します。これは、一貫性モデル(Song et al., 2023)とTRACT(Berthelot et al., 2023)を統合したもので、一貫性モデルと拡散モデルの間を補間することができます。つまり、サンプリング速度とサンプリング品質のトレードオフを実現します。具体的には、1ステップの一貫性モデルは従来の一貫性モデルであり、∞ステップの一貫性モデルは拡散モデルであることを示します。
マルチステップ一貫性モデルは実際に非常に良好に機能します。サンプル生成のステップ数を1ステップから2~8ステップに増やすことで、より高品質なサンプルを生成するモデルを容易に学習でき、サンプリング速度の利点の多くを維持します。注目すべき結果として、一貫性蒸留を用いて、Imagenet 64で8ステップで1.4 FID、Imagenet 128で8ステップで2.1 FIDを達成しました。また、本手法がテキストから画像への拡散モデルにもスケールし、元のモデルと非常に近い品質のサンプルを生成できることも示しました。
English
Diffusion models are relatively easy to train but require many steps to
generate samples. Consistency models are far more difficult to train, but
generate samples in a single step.
In this paper we propose Multistep Consistency Models: A unification between
Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that
can interpolate between a consistency model and a diffusion model: a trade-off
between sampling speed and sampling quality. Specifically, a 1-step consistency
model is a conventional consistency model whereas we show that a infty-step
consistency model is a diffusion model.
Multistep Consistency Models work really well in practice. By increasing the
sample budget from a single step to 2-8 steps, we can train models more easily
that generate higher quality samples, while retaining much of the sampling
speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1
FID on Imagenet128 in 8 steps with consistency distillation. We also show that
our method scales to a text-to-image diffusion model, generating samples that
are very close to the quality of the original model.Summary
AI-Generated Summary