Meerstaps Consistentiemodellen
Multistep Consistency Models
March 11, 2024
Auteurs: Jonathan Heek, Emiel Hoogeboom, Tim Salimans
cs.AI
Samenvatting
Diffusiemodellen zijn relatief eenvoudig te trainen, maar vereisen veel stappen om samples te genereren. Consistentiemodellen zijn aanzienlijk moeilijker te trainen, maar genereren samples in één enkele stap.
In dit artikel introduceren we Multistep Consistency Models: een unificatie tussen Consistentiemodellen (Song et al., 2023) en TRACT (Berthelot et al., 2023) die kan interpoleren tussen een consistentiemodel en een diffusiemodel: een afweging tussen sample-snelheid en sample-kwaliteit. Specifiek is een 1-staps consistentiemodel een conventioneel consistentiemodel, terwijl we aantonen dat een ∞-staps consistentiemodel een diffusiemodel is.
Multistep Consistency Models presteren uitstekend in de praktijk. Door het sample-budget te verhogen van één stap naar 2-8 stappen, kunnen we modellen gemakkelijker trainen die hogere kwaliteitssamples genereren, terwijl veel van de voordelen van de sample-snelheid behouden blijven. Opmerkelijke resultaten zijn een FID van 1,4 op Imagenet 64 in 8 stappen en een FID van 2,1 op Imagenet128 in 8 stappen met consistentiedistillatie. We laten ook zien dat onze methode schaalbaar is naar een tekst-naar-beeld diffusiemodel, waarbij samples worden gegenereerd die zeer dicht in de buurt komen van de kwaliteit van het originele model.
English
Diffusion models are relatively easy to train but require many steps to
generate samples. Consistency models are far more difficult to train, but
generate samples in a single step.
In this paper we propose Multistep Consistency Models: A unification between
Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that
can interpolate between a consistency model and a diffusion model: a trade-off
between sampling speed and sampling quality. Specifically, a 1-step consistency
model is a conventional consistency model whereas we show that a infty-step
consistency model is a diffusion model.
Multistep Consistency Models work really well in practice. By increasing the
sample budget from a single step to 2-8 steps, we can train models more easily
that generate higher quality samples, while retaining much of the sampling
speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1
FID on Imagenet128 in 8 steps with consistency distillation. We also show that
our method scales to a text-to-image diffusion model, generating samples that
are very close to the quality of the original model.