AsyncDiff : Parallélisation des modèles de diffusion par débruitage asynchrone
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising
June 11, 2024
Auteurs: Zigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang
cs.AI
Résumé
Les modèles de diffusion ont suscité un intérêt considérable de la part de la communauté en raison de leur grande capacité générative dans diverses applications. Cependant, leur nature typique de débruitage séquentiel en plusieurs étapes entraîne une latence cumulative élevée, empêchant ainsi les possibilités de calcul parallèle. Pour remédier à cela, nous introduisons AsyncDiff, un schéma d'accélération universel et plug-and-play qui permet le parallélisme de modèle sur plusieurs appareils. Notre approche divise le modèle de prédiction de bruit encombrant en plusieurs composants, en attribuant chacun à un appareil différent. Pour rompre la chaîne de dépendance entre ces composants, elle transforme le débruitage séquentiel conventionnel en un processus asynchrone en exploitant la forte similarité entre les états cachés dans les étapes de diffusion consécutives. Par conséquent, chaque composant est facilité à calculer en parallèle sur des appareils distincts. La stratégie proposée réduit considérablement la latence d'inférence tout en impactant minimalement la qualité générative. Plus précisément, pour le Stable Diffusion v2.1, AsyncDiff atteint une accélération de 2,7x avec une dégradation négligeable et une accélération de 4,0x avec seulement une légère réduction de 0,38 dans le score CLIP, sur quatre GPU NVIDIA A5000. Nos expériences démontrent également qu'AsyncDiff peut être facilement appliqué aux modèles de diffusion vidéo avec des performances encourageantes. Le code est disponible à l'adresse https://github.com/czg1225/AsyncDiff.
English
Diffusion models have garnered significant interest from the community for
their great generative ability across various applications. However, their
typical multi-step sequential-denoising nature gives rise to high cumulative
latency, thereby precluding the possibilities of parallel computation. To
address this, we introduce AsyncDiff, a universal and plug-and-play
acceleration scheme that enables model parallelism across multiple devices. Our
approach divides the cumbersome noise prediction model into multiple
components, assigning each to a different device. To break the dependency chain
between these components, it transforms the conventional sequential denoising
into an asynchronous process by exploiting the high similarity between hidden
states in consecutive diffusion steps. Consequently, each component is
facilitated to compute in parallel on separate devices. The proposed strategy
significantly reduces inference latency while minimally impacting the
generative quality. Specifically, for the Stable Diffusion v2.1, AsyncDiff
achieves a 2.7x speedup with negligible degradation and a 4.0x speedup with
only a slight reduction of 0.38 in CLIP Score, on four NVIDIA A5000 GPUs. Our
experiments also demonstrate that AsyncDiff can be readily applied to video
diffusion models with encouraging performances. The code is available at
https://github.com/czg1225/AsyncDiff.Summary
AI-Generated Summary