Beschleunigung der Diffusion durch hybride Daten-Pipeline-Parallelisierung basierend auf bedarfsgesteuerter Conditional-Guidance-Planung

Zusammenfassung

Diffusionsmodelle haben bemerkenswerte Fortschritte bei der hochauflösenden Erzeugung von Bildern, Videos und Audiodaten erzielt, doch der Inferenzvorgang bleibt rechenintensiv. Bisherige Beschleunigungsmethoden für Diffusionsmodelle, die auf verteilter Parallelverarbeitung basieren, leiden jedoch unter sichtbaren Generierungsartefakten und erreichen keine wesentliche Beschleunigung, die proportional zur Anzahl der GPUs ist. Daher schlagen wir ein Hybrid-Parallelisierungsframework vor, das eine neuartige Datenparallelstrategie, die condition-basierte Partitionierung, mit einer optimalen Pipeline-Planungsmethode, dem adaptiven Parallelitätswechsel, kombiniert, um die Generierungslatenz zu verringern und eine hohe Generierungsqualität in konditionalen Diffusionsmodellen zu erreichen. Die zentralen Ideen sind (i) die konditionalen und unkonditionellen Denoising-Pfade als neue Perspektive für die Datenpartitionierung zu nutzen und (ii) optimales Pipeline-Parallelismus adaptiv entsprechend der Denoising-Diskrepanz zwischen diesen beiden Pfaden zu aktivieren. Unser Framework erreicht eine Latenzreduktion um den Faktor 2,31 bei SDXL und 2,07 bei SD3 unter Verwendung von zwei NVIDIA RTX~3090 GPUs, bei gleichzeitiger Beibehaltung der Bildqualität. Dieses Ergebnis bestätigt die Allgemeingültigkeit unseres Ansatzes für U-Net-basierte Diffusionsmodelle und DiT-basierte Flow-Matching-Architekturen. Unser Ansatz übertrifft auch bestehende Methoden in der Beschleunigung unter Hochauflösungs-Synthese-Einstellungen. Der Code ist verfügbar unter https://github.com/kaist-dmlab/Hybridiff.

English

Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves 2.31times and 2.07times latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.

Beschleunigung der Diffusion durch hybride Daten-Pipeline-Parallelisierung basierend auf bedarfsgesteuerter Conditional-Guidance-Planung

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Zusammenfassung

Support