生成プロセス改善のためのリスタートサンプリング
Restart Sampling for Improving Generative Processes
June 26, 2023
著者: Yilun Xu, Mingyang Deng, Xiang Cheng, Yonglong Tian, Ziming Liu, Tommi Jaakkola
cs.AI
要旨
微分方程式を解くことを含む生成プロセス、例えば拡散モデルでは、速度と品質のバランスを取ることが頻繁に必要とされます。ODEベースのサンプラーは高速ですが性能が頭打ちになる一方で、SDEベースのサンプラーはサンプリング時間が増加する代わりに高いサンプル品質を提供します。この違いはサンプリング誤差に起因すると考えられます。ODEサンプラーは離散化誤差が小さい一方で、SDEの確率性は蓄積された誤差を縮小します。これらの知見に基づいて、離散化誤差と縮小のバランスをより良く取るために、Restartと呼ばれる新しいサンプリングアルゴリズムを提案します。このサンプリング手法は、追加のフォワードステップで大きなノイズを加えることと、厳密にバックワードODEに従うことを交互に行います。実験的に、Restartサンプラーは従来のSDEおよびODEサンプラーを速度と精度の両方で上回ります。Restartは従来の最良のSDE結果を凌駕するだけでなく、CIFAR-10 / ImageNet 64×64においてサンプリング速度を10倍/2倍加速します。さらに、同等のサンプリング時間内でODEサンプラーよりも大幅に優れたサンプル品質を達成します。さらに、Restartは、LAION 512×512で事前学習された大規模テキスト画像Stable Diffusionモデルにおいて、テキスト画像の整合性/視覚品質と多様性のバランスを従来のサンプラーよりも良く取ります。コードはhttps://github.com/Newbeeer/diffusion_restart_samplingで利用可能です。
English
Generative processes that involve solving differential equations, such as
diffusion models, frequently necessitate balancing speed and quality. ODE-based
samplers are fast but plateau in performance while SDE-based samplers deliver
higher sample quality at the cost of increased sampling time. We attribute this
difference to sampling errors: ODE-samplers involve smaller discretization
errors while stochasticity in SDE contracts accumulated errors. Based on these
findings, we propose a novel sampling algorithm called Restart in order to
better balance discretization errors and contraction. The sampling method
alternates between adding substantial noise in additional forward steps and
strictly following a backward ODE. Empirically, Restart sampler surpasses
previous SDE and ODE samplers in both speed and accuracy. Restart not only
outperforms the previous best SDE results, but also accelerates the sampling
speed by 10-fold / 2-fold on CIFAR-10 / ImageNet 64 times 64. In addition,
it attains significantly better sample quality than ODE samplers within
comparable sampling times. Moreover, Restart better balances text-image
alignment/visual quality versus diversity than previous samplers in the
large-scale text-to-image Stable Diffusion model pre-trained on LAION 512
times 512. Code is available at
https://github.com/Newbeeer/diffusion_restart_sampling