Accelerazione della Diffusione tramite Parallelismo Ibrido Dati-Pipeline Basato su Pianificazione Condizionata della Guida

Abstract

I modelli di diffusione hanno ottenuto progressi notevoli nella generazione di immagini, video e audio ad alta fedeltà, ma l'inferenza rimane computazionalmente costosa. Tuttavia, gli attuali metodi di accelerazione della diffusione basati sul parallelismo distribuito soffrono di evidenti artefatti di generazione e non riescono a ottenere un'accelerazione sostanziale proporzionale al numero di GPU. Pertanto, proponiamo un framework di parallelismo ibrido che combina una nuova strategia di parallelismo dei dati, il partizionamento basato su condizione, con un metodo ottimale di schedulazione delle pipeline, il commutamento adattivo del parallelismo, per ridurre la latenza di generazione e ottenere un'alta qualità generativa nei modelli di diffusione condizionati. Le idee chiave sono: (i) sfruttare i percorsi di denoising condizionati e non condizionati come una nuova prospettiva di partizionamento dei dati e (ii) abilitare adattivamente il parallelismo delle pipeline ottimale in base alla discrepanza di denoising tra questi due percorsi. Il nostro framework raggiunge riduzioni della latenza di 2,31 volte e 2,07 volte rispettivamente su SDXL e SD3, utilizzando due GPU NVIDIA RTX~3090, preservando la qualità dell'immagine. Questo risultato conferma la generalità del nostro approccio attraverso modelli di diffusione basati su U-Net e architetture di flow-matching basate su DiT. Il nostro approccio supera anche i metodi esistenti nell'accelerazione in contesti di sintesi ad alta risoluzione. Il codice è disponibile all'indirizzo https://github.com/kaist-dmlab/Hybridiff.

English

Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves 2.31times and 2.07times latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.

Accelerazione della Diffusione tramite Parallelismo Ibrido Dati-Pipeline Basato su Pianificazione Condizionata della Guida

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Abstract

Support