Modelos de Consistência em Múltiplos Passos
Multistep Consistency Models
March 11, 2024
Autores: Jonathan Heek, Emiel Hoogeboom, Tim Salimans
cs.AI
Resumo
Modelos de difusão são relativamente fáceis de treinar, mas exigem muitas etapas para gerar amostras. Modelos de consistência são muito mais difíceis de treinar, mas geram amostras em uma única etapa.
Neste artigo, propomos Modelos de Consistência Multietapa: uma unificação entre Modelos de Consistência (Song et al., 2023) e TRACT (Berthelot et al., 2023) que pode interpolar entre um modelo de consistência e um modelo de difusão: um equilíbrio entre velocidade de amostragem e qualidade de amostragem. Especificamente, um modelo de consistência de 1 etapa é um modelo de consistência convencional, enquanto mostramos que um modelo de consistência de infinitas etapas é um modelo de difusão.
Modelos de Consistência Multietapa funcionam muito bem na prática. Ao aumentar o orçamento de amostragem de uma única etapa para 2-8 etapas, podemos treinar modelos mais facilmente que geram amostras de maior qualidade, mantendo grande parte dos benefícios de velocidade de amostragem. Resultados notáveis são 1,4 FID no Imagenet 64 em 8 etapas e 2,1 FID no Imagenet128 em 8 etapas com destilação de consistência. Também mostramos que nosso método escala para um modelo de difusão texto-para-imagem, gerando amostras muito próximas da qualidade do modelo original.
English
Diffusion models are relatively easy to train but require many steps to
generate samples. Consistency models are far more difficult to train, but
generate samples in a single step.
In this paper we propose Multistep Consistency Models: A unification between
Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that
can interpolate between a consistency model and a diffusion model: a trade-off
between sampling speed and sampling quality. Specifically, a 1-step consistency
model is a conventional consistency model whereas we show that a infty-step
consistency model is a diffusion model.
Multistep Consistency Models work really well in practice. By increasing the
sample budget from a single step to 2-8 steps, we can train models more easily
that generate higher quality samples, while retaining much of the sampling
speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1
FID on Imagenet128 in 8 steps with consistency distillation. We also show that
our method scales to a text-to-image diffusion model, generating samples that
are very close to the quality of the original model.