Modelos de Consistência em Múltiplos Passos

Resumo

Modelos de difusão são relativamente fáceis de treinar, mas exigem muitas etapas para gerar amostras. Modelos de consistência são muito mais difíceis de treinar, mas geram amostras em uma única etapa. Neste artigo, propomos Modelos de Consistência Multietapa: uma unificação entre Modelos de Consistência (Song et al., 2023) e TRACT (Berthelot et al., 2023) que pode interpolar entre um modelo de consistência e um modelo de difusão: um equilíbrio entre velocidade de amostragem e qualidade de amostragem. Especificamente, um modelo de consistência de 1 etapa é um modelo de consistência convencional, enquanto mostramos que um modelo de consistência de infinitas etapas é um modelo de difusão. Modelos de Consistência Multietapa funcionam muito bem na prática. Ao aumentar o orçamento de amostragem de uma única etapa para 2-8 etapas, podemos treinar modelos mais facilmente que geram amostras de maior qualidade, mantendo grande parte dos benefícios de velocidade de amostragem. Resultados notáveis são 1,4 FID no Imagenet 64 em 8 etapas e 2,1 FID no Imagenet128 em 8 etapas com destilação de consistência. Também mostramos que nosso método escala para um modelo de difusão texto-para-imagem, gerando amostras muito próximas da qualidade do modelo original.

English

Diffusion models are relatively easy to train but require many steps to generate samples. Consistency models are far more difficult to train, but generate samples in a single step. In this paper we propose Multistep Consistency Models: A unification between Consistency Models (Song et al., 2023) and TRACT (Berthelot et al., 2023) that can interpolate between a consistency model and a diffusion model: a trade-off between sampling speed and sampling quality. Specifically, a 1-step consistency model is a conventional consistency model whereas we show that a infty-step consistency model is a diffusion model. Multistep Consistency Models work really well in practice. By increasing the sample budget from a single step to 2-8 steps, we can train models more easily that generate higher quality samples, while retaining much of the sampling speed benefits. Notable results are 1.4 FID on Imagenet 64 in 8 step and 2.1 FID on Imagenet128 in 8 steps with consistency distillation. We also show that our method scales to a text-to-image diffusion model, generating samples that are very close to the quality of the original model.