ChatPaper.aiChatPaper

Mehrstufige Konsistenzmodelle

Multistep Consistency Models

March 11, 2024
Autoren: Jonathan Heek, Emiel Hoogeboom, Tim Salimans
cs.AI

Zusammenfassung

Diffusionsmodelle sind relativ einfach zu trainieren, erfordern jedoch viele Schritte, um Stichproben zu generieren. Konsistenzmodelle sind viel schwieriger zu trainieren, generieren jedoch Stichproben in einem einzigen Schritt. In diesem Paper schlagen wir Multistep-Konsistenzmodelle vor: Eine Vereinigung zwischen Konsistenzmodellen (Song et al., 2023) und TRACT (Berthelot et al., 2023), die zwischen einem Konsistenzmodell und einem Diffusionsmodell interpolieren kann: ein Kompromiss zwischen der Geschwindigkeit der Stichprobenahme und der Qualität der Stichproben. Speziell ist ein Konsistenzmodell mit 1 Schritt ein herkömmliches Konsistenzmodell, während wir zeigen, dass ein Konsistenzmodell mit unendlich vielen Schritten ein Diffusionsmodell ist. Multistep-Konsistenzmodelle funktionieren in der Praxis sehr gut. Durch Erhöhung des Stichproben-Budgets von einem einzigen Schritt auf 2-8 Schritte können wir Modelle einfacher trainieren, die qualitativ hochwertigere Stichproben generieren, während wir viele der Vorteile der Geschwindigkeit der Stichprobenahme beibehalten. Bemerkenswerte Ergebnisse sind 1,4 FID auf Imagenet 64 in 8 Schritten und 2,1 FID auf Imagenet128 in 8 Schritten mit Konsistenzdestillation. Wir zeigen auch, dass unsere Methode auf ein Text-zu-Bild-Diffusionsmodell skaliert, das Stichproben generiert, die der Qualität des Originalmodells sehr nahe kommen.
English
Diffusion models are relatively easy to train but require many steps to generate samples. Consistency models are far more difficult to train, but generate samples in a single step. In this paper we propose Multistep Consistency Models: A unification between Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that can interpolate between a consistency model and a diffusion model: a trade-off between sampling speed and sampling quality. Specifically, a 1-step consistency model is a conventional consistency model whereas we show that a infty-step consistency model is a diffusion model. Multistep Consistency Models work really well in practice. By increasing the sample budget from a single step to 2-8 steps, we can train models more easily that generate higher quality samples, while retaining much of the sampling speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1 FID on Imagenet128 in 8 steps with consistency distillation. We also show that our method scales to a text-to-image diffusion model, generating samples that are very close to the quality of the original model.

Summary

AI-Generated Summary

PDF161December 15, 2024