AsyncDiff: Paralelización de Modelos de Difusión mediante Desruido Asíncrono
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising
June 11, 2024
Autores: Zigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang
cs.AI
Resumen
Los modelos de difusión han captado un interés significativo de la comunidad debido a su gran capacidad generativa en diversas aplicaciones. Sin embargo, su naturaleza típica de desruido secuencial en múltiples pasos genera una alta latencia acumulada, lo que impide la posibilidad de realizar cálculos en paralelo. Para abordar esto, presentamos AsyncDiff, un esquema de aceleración universal y plug-and-play que permite el paralelismo de modelos en múltiples dispositivos. Nuestro enfoque divide el engorroso modelo de predicción de ruido en varios componentes, asignando cada uno a un dispositivo diferente. Para romper la cadena de dependencia entre estos componentes, transforma el desruido secuencial convencional en un proceso asíncrono aprovechando la alta similitud entre los estados ocultos en pasos consecutivos de difusión. En consecuencia, cada componente puede calcular en paralelo en dispositivos separados. La estrategia propuesta reduce significativamente la latencia de inferencia con un impacto mínimo en la calidad generativa. Específicamente, para Stable Diffusion v2.1, AsyncDiff logra una aceleración de 2.7x con una degradación insignificante y una aceleración de 4.0x con solo una ligera reducción de 0.38 en el CLIP Score, utilizando cuatro GPUs NVIDIA A5000. Nuestros experimentos también demuestran que AsyncDiff puede aplicarse fácilmente a modelos de difusión de video con resultados alentadores. El código está disponible en https://github.com/czg1225/AsyncDiff.
English
Diffusion models have garnered significant interest from the community for
their great generative ability across various applications. However, their
typical multi-step sequential-denoising nature gives rise to high cumulative
latency, thereby precluding the possibilities of parallel computation. To
address this, we introduce AsyncDiff, a universal and plug-and-play
acceleration scheme that enables model parallelism across multiple devices. Our
approach divides the cumbersome noise prediction model into multiple
components, assigning each to a different device. To break the dependency chain
between these components, it transforms the conventional sequential denoising
into an asynchronous process by exploiting the high similarity between hidden
states in consecutive diffusion steps. Consequently, each component is
facilitated to compute in parallel on separate devices. The proposed strategy
significantly reduces inference latency while minimally impacting the
generative quality. Specifically, for the Stable Diffusion v2.1, AsyncDiff
achieves a 2.7x speedup with negligible degradation and a 4.0x speedup with
only a slight reduction of 0.38 in CLIP Score, on four NVIDIA A5000 GPUs. Our
experiments also demonstrate that AsyncDiff can be readily applied to video
diffusion models with encouraging performances. The code is available at
https://github.com/czg1225/AsyncDiff.Summary
AI-Generated Summary