AsyncDiff: Paralleleisierung von Diffusionsmodellen durch asynchrones Denoising
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising
June 11, 2024
Autoren: Zigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang
cs.AI
Zusammenfassung
Diffusionsmodelle haben in der Community erhebliches Interesse geweckt aufgrund ihrer starken generativen Fähigkeiten in verschiedenen Anwendungen. Allerdings führt ihre typische mehrstufige sequenzielle Rauschunterdrückung zu einer hohen kumulativen Latenz, was die Möglichkeit paralleler Berechnungen ausschließt. Um diesem Problem zu begegnen, stellen wir AsyncDiff vor, ein universelles und einfach integrierbares Beschleunigungsschema, das eine Modellparallelität über mehrere Geräte ermöglicht. Unser Ansatz unterteilt das umfangreiche Rauschvorhersagemodell in mehrere Komponenten und weist jeder Komponente ein anderes Gerät zu. Um die Abhängigkeitskette zwischen diesen Komponenten zu durchbrechen, wird die konventionelle sequenzielle Rauschunterdrückung in einen asynchronen Prozess umgewandelt, indem die hohe Ähnlichkeit zwischen den versteckten Zuständen in aufeinanderfolgenden Diffusionsschritten ausgenutzt wird. Folglich ist es jeder Komponente möglich, parallel auf separaten Geräten zu rechnen. Die vorgeschlagene Strategie reduziert die Inferenzlatenz signifikant, während die generative Qualität minimal beeinträchtigt wird. Speziell für die Stable Diffusion v2.1 erreicht AsyncDiff eine Beschleunigung um den Faktor 2,7 bei vernachlässigbarer Verschlechterung und eine Beschleunigung um den Faktor 4,0 bei lediglich einer geringfügigen Reduzierung von 0,38 im CLIP-Score auf vier NVIDIA A5000 GPUs. Unsere Experimente zeigen zudem, dass AsyncDiff problemlos auf Videodiffusionsmodelle mit vielversprechenden Leistungen angewendet werden kann. Der Code ist verfügbar unter https://github.com/czg1225/AsyncDiff.
English
Diffusion models have garnered significant interest from the community for
their great generative ability across various applications. However, their
typical multi-step sequential-denoising nature gives rise to high cumulative
latency, thereby precluding the possibilities of parallel computation. To
address this, we introduce AsyncDiff, a universal and plug-and-play
acceleration scheme that enables model parallelism across multiple devices. Our
approach divides the cumbersome noise prediction model into multiple
components, assigning each to a different device. To break the dependency chain
between these components, it transforms the conventional sequential denoising
into an asynchronous process by exploiting the high similarity between hidden
states in consecutive diffusion steps. Consequently, each component is
facilitated to compute in parallel on separate devices. The proposed strategy
significantly reduces inference latency while minimally impacting the
generative quality. Specifically, for the Stable Diffusion v2.1, AsyncDiff
achieves a 2.7x speedup with negligible degradation and a 4.0x speedup with
only a slight reduction of 0.38 in CLIP Score, on four NVIDIA A5000 GPUs. Our
experiments also demonstrate that AsyncDiff can be readily applied to video
diffusion models with encouraging performances. The code is available at
https://github.com/czg1225/AsyncDiff.Summary
AI-Generated Summary