Ajuste de Consistência Estável: Compreensão e Melhoria de Modelos de Consistência
Stable Consistency Tuning: Understanding and Improving Consistency Models
October 24, 2024
Autores: Fu-Yun Wang, Zhengyang Geng, Hongsheng Li
cs.AI
Resumo
Os modelos de difusão alcançam uma qualidade de geração superior, mas sofrem com a lentidão na geração devido à natureza iterativa da remoção de ruído. Em contraste, os modelos de consistência, uma nova família generativa, alcançam desempenho competitivo com uma amostragem significativamente mais rápida. Esses modelos são treinados através da destilação de consistência, que aproveita modelos de difusão pré-treinados, ou treinamento/ajuste de consistência diretamente a partir de dados brutos. Neste trabalho, propomos um novo framework para compreender os modelos de consistência, modelando o processo de remoção de ruído do modelo de difusão como um Processo de Decisão de Markov (MDP) e enquadrando o treinamento do modelo de consistência como a estimativa de valor através do Aprendizado por Diferença Temporal (TD). Mais importante ainda, este framework nos permite analisar as limitações das atuais estratégias de treinamento/ajuste de consistência. Construído sobre o Ajuste de Consistência Fácil (ECT), propomos o Ajuste de Consistência Estável (SCT), que incorpora aprendizado com redução de variância usando a identidade de pontuação. SCT resulta em melhorias significativas de desempenho em benchmarks como CIFAR-10 e ImageNet-64. Em ImageNet-64, SCT alcança FID de 1 passo de 2,42 e FID de 2 passos de 1,55, um novo estado da arte para modelos de consistência.
English
Diffusion models achieve superior generation quality but suffer from slow
generation speed due to the iterative nature of denoising. In contrast,
consistency models, a new generative family, achieve competitive performance
with significantly faster sampling. These models are trained either through
consistency distillation, which leverages pretrained diffusion models, or
consistency training/tuning directly from raw data. In this work, we propose a
novel framework for understanding consistency models by modeling the denoising
process of the diffusion model as a Markov Decision Process (MDP) and framing
consistency model training as the value estimation through Temporal
Difference~(TD) Learning. More importantly, this framework allows us to analyze
the limitations of current consistency training/tuning strategies. Built upon
Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT),
which incorporates variance-reduced learning using the score identity. SCT
leads to significant performance improvements on benchmarks such as CIFAR-10
and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID
1.55, a new SoTA for consistency models.Summary
AI-Generated Summary