AsyncDiff : Parallélisation des modèles de diffusion par débruitage asynchrone

papers.abstract

Les modèles de diffusion ont suscité un intérêt considérable de la part de la communauté en raison de leur grande capacité générative dans diverses applications. Cependant, leur nature typique de débruitage séquentiel en plusieurs étapes entraîne une latence cumulative élevée, empêchant ainsi les possibilités de calcul parallèle. Pour remédier à cela, nous introduisons AsyncDiff, un schéma d'accélération universel et plug-and-play qui permet le parallélisme de modèle sur plusieurs appareils. Notre approche divise le modèle de prédiction de bruit encombrant en plusieurs composants, en attribuant chacun à un appareil différent. Pour rompre la chaîne de dépendance entre ces composants, elle transforme le débruitage séquentiel conventionnel en un processus asynchrone en exploitant la forte similarité entre les états cachés dans les étapes de diffusion consécutives. Par conséquent, chaque composant est facilité à calculer en parallèle sur des appareils distincts. La stratégie proposée réduit considérablement la latence d'inférence tout en impactant minimalement la qualité générative. Plus précisément, pour le Stable Diffusion v2.1, AsyncDiff atteint une accélération de 2,7x avec une dégradation négligeable et une accélération de 4,0x avec seulement une légère réduction de 0,38 dans le score CLIP, sur quatre GPU NVIDIA A5000. Nos expériences démontrent également qu'AsyncDiff peut être facilement appliqué aux modèles de diffusion vidéo avec des performances encourageantes. Le code est disponible à l'adresse https://github.com/czg1225/AsyncDiff.

English

Diffusion models have garnered significant interest from the community for their great generative ability across various applications. However, their typical multi-step sequential-denoising nature gives rise to high cumulative latency, thereby precluding the possibilities of parallel computation. To address this, we introduce AsyncDiff, a universal and plug-and-play acceleration scheme that enables model parallelism across multiple devices. Our approach divides the cumbersome noise prediction model into multiple components, assigning each to a different device. To break the dependency chain between these components, it transforms the conventional sequential denoising into an asynchronous process by exploiting the high similarity between hidden states in consecutive diffusion steps. Consequently, each component is facilitated to compute in parallel on separate devices. The proposed strategy significantly reduces inference latency while minimally impacting the generative quality. Specifically, for the Stable Diffusion v2.1, AsyncDiff achieves a 2.7x speedup with negligible degradation and a 4.0x speedup with only a slight reduction of 0.38 in CLIP Score, on four NVIDIA A5000 GPUs. Our experiments also demonstrate that AsyncDiff can be readily applied to video diffusion models with encouraging performances. The code is available at https://github.com/czg1225/AsyncDiff.

AsyncDiff : Parallélisation des modèles de diffusion par débruitage asynchrone

AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising

papers.abstract

Support