ChatPaper.aiChatPaper

Ajuste de Consistencia Estable: Comprendiendo y Mejorando Modelos de Consistencia

Stable Consistency Tuning: Understanding and Improving Consistency Models

October 24, 2024
Autores: Fu-Yun Wang, Zhengyang Geng, Hongsheng Li
cs.AI

Resumen

Los modelos de difusión logran una calidad de generación superior pero sufren de una velocidad de generación lenta debido a la naturaleza iterativa del proceso de eliminación de ruido. En contraste, los modelos de consistencia, una nueva familia generativa, logran un rendimiento competitivo con una velocidad de muestreo significativamente más rápida. Estos modelos se entrenan ya sea a través de destilación de consistencia, que aprovecha modelos de difusión preentrenados, o mediante entrenamiento/ajuste de consistencia directamente desde datos en bruto. En este trabajo, proponemos un marco novedoso para entender los modelos de consistencia al modelar el proceso de eliminación de ruido del modelo de difusión como un Proceso de Decisión de Markov (MDP) y enmarcar el entrenamiento del modelo de consistencia como la estimación de valor a través del Aprendizaje por Diferencia Temporal (TD). Más importante aún, este marco nos permite analizar las limitaciones de las estrategias actuales de entrenamiento/ajuste de consistencia. Basándonos en el Ajuste de Consistencia Fácil (ECT), proponemos el Ajuste de Consistencia Estable (SCT), que incorpora aprendizaje con reducción de varianza utilizando la identidad de puntaje. SCT conduce a mejoras significativas en el rendimiento en conjuntos de datos como CIFAR-10 e ImageNet-64. En ImageNet-64, SCT logra un FID de 1 paso de 2.42 y un FID de 2 pasos de 1.55, un nuevo estado del arte para los modelos de consistencia.
English
Diffusion models achieve superior generation quality but suffer from slow generation speed due to the iterative nature of denoising. In contrast, consistency models, a new generative family, achieve competitive performance with significantly faster sampling. These models are trained either through consistency distillation, which leverages pretrained diffusion models, or consistency training/tuning directly from raw data. In this work, we propose a novel framework for understanding consistency models by modeling the denoising process of the diffusion model as a Markov Decision Process (MDP) and framing consistency model training as the value estimation through Temporal Difference~(TD) Learning. More importantly, this framework allows us to analyze the limitations of current consistency training/tuning strategies. Built upon Easy Consistency Tuning (ECT), we propose Stable Consistency Tuning (SCT), which incorporates variance-reduced learning using the score identity. SCT leads to significant performance improvements on benchmarks such as CIFAR-10 and ImageNet-64. On ImageNet-64, SCT achieves 1-step FID 2.42 and 2-step FID 1.55, a new SoTA for consistency models.

Summary

AI-Generated Summary

PDF103November 16, 2024