Modelli di Consistenza a Più Passi
Multistep Consistency Models
March 11, 2024
Autori: Jonathan Heek, Emiel Hoogeboom, Tim Salimans
cs.AI
Abstract
I modelli di diffusione sono relativamente facili da addestrare, ma richiedono molti passaggi per generare campioni. I modelli di consistenza sono molto più difficili da addestrare, ma generano campioni in un singolo passaggio.
In questo articolo proponiamo i Modelli di Consistenza Multistep: un'unione tra i Modelli di Consistenza (Song et al., 2023) e TRACT (Berthelot et al., 2023) che può interpolare tra un modello di consistenza e un modello di diffusione: un compromesso tra velocità di campionamento e qualità dei campioni. Nello specifico, un modello di consistenza a 1 passaggio è un modello di consistenza convenzionale, mentre dimostriamo che un modello di consistenza a infiniti passaggi è un modello di diffusione.
I Modelli di Consistenza Multistep funzionano molto bene nella pratica. Aumentando il budget di campionamento da un singolo passaggio a 2-8 passaggi, possiamo addestrare modelli più facilmente che generano campioni di qualità superiore, mantenendo gran parte dei vantaggi in termini di velocità di campionamento. Risultati degni di nota sono 1.4 FID su Imagenet 64 in 8 passaggi e 2.1 FID su Imagenet128 in 8 passaggi con distillazione di consistenza. Mostriamo inoltre che il nostro metodo si adatta a un modello di diffusione text-to-image, generando campioni molto vicini alla qualità del modello originale.
English
Diffusion models are relatively easy to train but require many steps to
generate samples. Consistency models are far more difficult to train, but
generate samples in a single step.
In this paper we propose Multistep Consistency Models: A unification between
Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that
can interpolate between a consistency model and a diffusion model: a trade-off
between sampling speed and sampling quality. Specifically, a 1-step consistency
model is a conventional consistency model whereas we show that a infty-step
consistency model is a diffusion model.
Multistep Consistency Models work really well in practice. By increasing the
sample budget from a single step to 2-8 steps, we can train models more easily
that generate higher quality samples, while retaining much of the sampling
speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1
FID on Imagenet128 in 8 steps with consistency distillation. We also show that
our method scales to a text-to-image diffusion model, generating samples that
are very close to the quality of the original model.