Versnelling van diffusie via hybride data-pijplijnparallelisme gebaseerd op conditionele geleidingsplanning

Samenvatting

Diffusiemodellen hebben opmerkelijke vooruitgang geboekt in de generatie van hoogwaardige afbeeldingen, video's en audio, maar de inferentie blijft rekenkundig kostbaar. Toch leiden huidige versnellingsmethoden voor diffusie, gebaseerd op gedistribueerde parallellisatie, tot merkbare generatie-artefacten en slagen zij er niet in een substantiële versnelling te bereiken die evenredig is met het aantal GPU's. Daarom stellen wij een hybride parallellisatieraamwerk voor dat een nieuwe data-parallelle strategie, condition-based partitioning, combineert met een optimale pipeline-schedulingsmethode, adaptive parallelism switching, om de generatielatentie te verminderen en een hoge generatiekwaliteit te bereiken in conditionele diffusiemodellen. De kernideeën zijn om (i) de conditionele en unconditionele denoiseringspaden te benutten als een nieuw perspectief voor data-partitionering en (ii) optimale pipeline-parallellisatie adaptief in te schakelen op basis van het denoiseringsverschil tussen deze twee paden. Ons raamwerk bereikt een latentievermindering van respectievelijk 2,31x en 2,07x op SDXL en SD3 met twee NVIDIA RTX~3090 GPU's, waarbij de beeldkwaliteit behouden blijft. Dit resultaat bevestigt de generaliseerbaarheid van onze aanpak over U-Net-gebaseerde diffusiemodellen en DiT-gebaseerde flow-matching architecturen. Onze aanpak overtreft ook bestaande methoden wat betreft versnelling onder instellingen voor hoogresolutie-synthese. Code is beschikbaar op https://github.com/kaist-dmlab/Hybridiff.

English

Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves 2.31times and 2.07times latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.

Versnelling van diffusie via hybride data-pijplijnparallelisme gebaseerd op conditionele geleidingsplanning

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Samenvatting

Support