Técnica de Entrenamiento Mejorada para Modelos de Consistencia Latente
Improved Training Technique for Latent Consistency Models
February 3, 2025
Autores: Quan Dao, Khanh Doan, Di Liu, Trung Le, Dimitris Metaxas
cs.AI
Resumen
Los modelos de consistencia son una nueva familia de modelos generativos capaces de producir muestras de alta calidad ya sea en un solo paso o en múltiples pasos. Recientemente, los modelos de consistencia han demostrado un rendimiento impresionante, logrando resultados comparables con los modelos de difusión en el espacio de píxeles. Sin embargo, el éxito de escalar el entrenamiento de consistencia a conjuntos de datos a gran escala, especialmente para tareas de generación de texto a imagen y video, está determinado por el rendimiento en el espacio latente. En este trabajo, analizamos las diferencias estadísticas entre los espacios de píxeles y latentes, descubriendo que los datos latentes a menudo contienen valores atípicos altamente impulsivos, que degradan significativamente el rendimiento de iCT en el espacio latente. Para abordar esto, reemplazamos las pérdidas de Pseudo-Huber con pérdidas de Cauchy, mitigando efectivamente el impacto de los valores atípicos. Además, introducimos una pérdida de difusión en pasos de tiempo tempranos y empleamos acoplamientos de transporte óptimo (OT) para mejorar aún más el rendimiento. Por último, presentamos el programador de escalado adaptativo para gestionar el proceso de entrenamiento robusto y adoptamos LayerNorm no escalable en la arquitectura para capturar mejor las estadísticas de las características y reducir el impacto de los valores atípicos. Con estas estrategias, entrenamos con éxito modelos de consistencia latente capaces de generar muestras de alta calidad con uno o dos pasos, reduciendo significativamente la brecha de rendimiento entre la consistencia latente y los modelos de difusión. La implementación se encuentra disponible en: https://github.com/quandao10/sLCT/
English
Consistency models are a new family of generative models capable of producing
high-quality samples in either a single step or multiple steps. Recently,
consistency models have demonstrated impressive performance, achieving results
on par with diffusion models in the pixel space. However, the success of
scaling consistency training to large-scale datasets, particularly for
text-to-image and video generation tasks, is determined by performance in the
latent space. In this work, we analyze the statistical differences between
pixel and latent spaces, discovering that latent data often contains highly
impulsive outliers, which significantly degrade the performance of iCT in the
latent space. To address this, we replace Pseudo-Huber losses with Cauchy
losses, effectively mitigating the impact of outliers. Additionally, we
introduce a diffusion loss at early timesteps and employ optimal transport (OT)
coupling to further enhance performance. Lastly, we introduce the adaptive
scaling-c scheduler to manage the robust training process and adopt
Non-scaling LayerNorm in the architecture to better capture the statistics of
the features and reduce outlier impact. With these strategies, we successfully
train latent consistency models capable of high-quality sampling with one or
two steps, significantly narrowing the performance gap between latent
consistency and diffusion models. The implementation is released here:
https://github.com/quandao10/sLCT/