Accélération de la diffusion via un parallélisme hybride des pipelines de données basé sur une planification conditionnelle guidée

Résumé

Les modèles de diffusion ont réalisé des progrès remarquables dans la génération d'images, de vidéos et d'audio de haute fidélité, mais l'inférence reste coûteuse en calcul. Néanmoins, les méthodes actuelles d'accélération de la diffusion basées sur le parallélisme distribué souffrent d'artefacts de génération perceptibles et n'atteignent pas une accélération substantielle proportionnelle au nombre de GPU. Par conséquent, nous proposons un cadre de parallélisme hybride qui combine une nouvelle stratégie de parallélisme de données, le partitionnement conditionnel, avec une méthode optimale d'ordonnancement de pipeline, la commutation adaptative du parallélisme, afin de réduire la latence de génération et d'atteindre une qualité de génération élevée dans les modèles de diffusion conditionnels. Les idées clés sont (i) d'exploiter les chemins de débruitage conditionnel et non conditionnel comme nouvelle perspective de partitionnement des données et (ii) d'activer de manière adaptive un parallélisme de pipeline optimal en fonction de l'écart de débruitage entre ces deux chemins. Notre cadre atteint des réductions de latence de 2,31 fois et 2,07 fois respectivement sur SDXL et SD3 en utilisant deux GPU NVIDIA RTX~3090, tout en préservant la qualité d'image. Ce résultat confirme la généralité de notre approche à travers les modèles de diffusion basés sur U-Net et les architectures de flow-matching basées sur DiT. Notre approche surpasse également les méthodes existantes en termes d'accélération dans des paramètres de synthèse haute résolution. Le code est disponible à l'adresse https://github.com/kaist-dmlab/Hybridiff.

English

Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves 2.31times and 2.07times latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.

Accélération de la diffusion via un parallélisme hybride des pipelines de données basé sur une planification conditionnelle guidée

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Résumé

Support