Mehrstufige Konsistenzmodelle
Multistep Consistency Models
March 11, 2024
Autoren: Jonathan Heek, Emiel Hoogeboom, Tim Salimans
cs.AI
Zusammenfassung
Diffusionsmodelle sind relativ einfach zu trainieren, erfordern jedoch viele Schritte, um Stichproben zu generieren. Konsistenzmodelle sind viel schwieriger zu trainieren, generieren jedoch Stichproben in einem einzigen Schritt.
In diesem Paper schlagen wir Multistep-Konsistenzmodelle vor: Eine Vereinigung zwischen Konsistenzmodellen (Song et al., 2023) und TRACT (Berthelot et al., 2023), die zwischen einem Konsistenzmodell und einem Diffusionsmodell interpolieren kann: ein Kompromiss zwischen der Geschwindigkeit der Stichprobenahme und der Qualität der Stichproben. Speziell ist ein Konsistenzmodell mit 1 Schritt ein herkömmliches Konsistenzmodell, während wir zeigen, dass ein Konsistenzmodell mit unendlich vielen Schritten ein Diffusionsmodell ist.
Multistep-Konsistenzmodelle funktionieren in der Praxis sehr gut. Durch Erhöhung des Stichproben-Budgets von einem einzigen Schritt auf 2-8 Schritte können wir Modelle einfacher trainieren, die qualitativ hochwertigere Stichproben generieren, während wir viele der Vorteile der Geschwindigkeit der Stichprobenahme beibehalten. Bemerkenswerte Ergebnisse sind 1,4 FID auf Imagenet 64 in 8 Schritten und 2,1 FID auf Imagenet128 in 8 Schritten mit Konsistenzdestillation. Wir zeigen auch, dass unsere Methode auf ein Text-zu-Bild-Diffusionsmodell skaliert, das Stichproben generiert, die der Qualität des Originalmodells sehr nahe kommen.
English
Diffusion models are relatively easy to train but require many steps to
generate samples. Consistency models are far more difficult to train, but
generate samples in a single step.
In this paper we propose Multistep Consistency Models: A unification between
Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that
can interpolate between a consistency model and a diffusion model: a trade-off
between sampling speed and sampling quality. Specifically, a 1-step consistency
model is a conventional consistency model whereas we show that a infty-step
consistency model is a diffusion model.
Multistep Consistency Models work really well in practice. By increasing the
sample budget from a single step to 2-8 steps, we can train models more easily
that generate higher quality samples, while retaining much of the sampling
speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1
FID on Imagenet128 in 8 steps with consistency distillation. We also show that
our method scales to a text-to-image diffusion model, generating samples that
are very close to the quality of the original model.Summary
AI-Generated Summary