Aceleración de Difusión Mediante Paralelismo Híbrido de Datos y Tuberías Basado en Planificación de Guía Condicional

Resumen

Los modelos de difusión han logrado avances notables en la generación de imágenes, vídeo y audio de alta fidelidad, aunque la inferencia sigue siendo computacionalmente costosa. Sin embargo, los métodos actuales de aceleración de difusión basados en paralelismo distribuido adolecen de artefactos de generación perceptibles y no consiguen una aceleración sustancial proporcional al número de GPUs. Por ello, proponemos un marco de paralelismo híbrido que combina una novedosa estrategia de paralelismo de datos, la partición basada en condiciones, con un método óptimo de planificación de pipeline, el cambio adaptativo de paralelismo, para reducir la latencia de generación y lograr alta calidad en modelos de difusión condicionales. Las ideas clave son (i) aprovechar las trayectorias de eliminación de ruido condicional e incondicional como una nueva perspectiva de partición de datos y (ii) habilitar de forma adaptativa el paralelismo de pipeline óptimo según la discrepancia en la eliminación de ruido entre ambas trayectorias. Nuestro marco logra reducciones de latencia de 2.31x y 2.07x en SDXL y SD3, respectivamente, utilizando dos GPUs NVIDIA RTX~3090, preservando la calidad de imagen. Este resultado confirma la generalidad de nuestro enfoque en modelos de difusión basados en U-Net y arquitecturas de emparejamiento de flujo basadas en DiT. Nuestro método también supera a los existentes en aceleración bajo configuraciones de síntesis de alta resolución. El código está disponible en https://github.com/kaist-dmlab/Hybridiff.

English

Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves 2.31times and 2.07times latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.

Aceleración de Difusión Mediante Paralelismo Híbrido de Datos y Tuberías Basado en Planificación de Guía Condicional

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Resumen

Support