Ускорение диффузии с помощью гибридного параллелизма конвейера данных на основе планирования условной направляющей
Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling
February 25, 2026
Авторы: Euisoo Jung, Byunghyun Kim, Hyunjin Kim, Seonghye Cho, Jae-Gil Lee
cs.AI
Аннотация
Модели диффузии достигли значительного прогресса в генерации изображений, видео и аудио с высокой точностью, однако процесс вывода остается вычислительно затратным. Тем не менее, современные методы ускорения диффузии, основанные на распределенном параллелизме, страдают от заметных артефактов генерации и не позволяют достичь существенного ускорения, пропорционального количеству графических процессоров. Поэтому мы предлагаем гибридную систему параллелизма, сочетающую новую стратегию параллелизма данных — условное разделение — с оптимальным методом планирования конвейерной обработки — адаптивное переключение параллелизма — для снижения задержки генерации и достижения высокого качества генерации в условных диффузионных моделях. Ключевые идеи заключаются в (i) использовании условного и безусловного путей денойзинга как нового подхода к разделению данных и (ii) адаптивном включении оптимального конвейерного параллелизма в соответствии с расхождением денойзинга между этими двумя путями. Наша система обеспечивает сокращение задержки в 2,31 и 2,07 раза для SDXL и SD3 соответственно, при использовании двух графических процессоров NVIDIA RTX~3090, с сохранением качества изображения. Этот результат подтверждает универсальность нашего подхода для диффузионных моделей на основе U-Net и архитектур потокового согласования на основе DiT. Наш подход также превосходит существующие методы по ускорению в условиях синтеза высокого разрешения. Код доступен по адресу https://github.com/kaist-dmlab/Hybridiff.
English
Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves 2.31times and 2.07times latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.