Aceleração da Difusão via Paralelismo Híbrido de Pipeline de Dados Baseado no Escalonamento de Orientação Condicional

Resumo

Os modelos de difusão alcançaram progressos notáveis na geração de imagens, vídeos e áudio de alta fidelidade, porém a inferência permanece computacionalmente custosa. No entanto, os métodos atuais de aceleração de difusão baseados em paralelismo distribuído sofrem com artefatos de geração perceptíveis e não conseguem alcançar uma aceleração substancial proporcional ao número de GPUs. Portanto, propomos uma estrutura de paralelismo híbrida que combina uma nova estratégia de paralelismo de dados, o particionamento baseado em condições, com um método ótimo de escalonamento de pipeline, a comutação adaptativa de paralelismo, para reduzir a latência de geração e alcançar alta qualidade de geração em modelos de difusão condicionais. As ideias-chave são (i) aproveitar os caminhos de remoção de ruído condicionais e incondicionais como uma nova perspectiva de particionamento de dados e (ii) ativar de forma adaptativa o paralelismo de pipeline ótimo de acordo com a discrepância de remoção de ruído entre esses dois caminhos. Nossa estrutura alcança reduções de latência de 2,31 vezes e 2,07 vezes em SDXL e SD3, respectivamente, usando duas GPUs NVIDIA RTX~3090, preservando a qualidade da imagem. Este resultado confirma a generalidade da nossa abordagem em modelos de difusão baseados em U-Net e arquiteturas de correspondência de fluxo baseadas em DiT. Nossa abordagem também supera os métodos existentes em aceleração sob configurações de síntese de alta resolução. O código está disponível em https://github.com/kaist-dmlab/Hybridiff.

English

Diffusion models have achieved remarkable progress in high-fidelity image, video, and audio generation, yet inference remains computationally expensive. Nevertheless, current diffusion acceleration methods based on distributed parallelism suffer from noticeable generation artifacts and fail to achieve substantial acceleration proportional to the number of GPUs. Therefore, we propose a hybrid parallelism framework that combines a novel data parallel strategy, condition-based partitioning, with an optimal pipeline scheduling method, adaptive parallelism switching, to reduce generation latency and achieve high generation quality in conditional diffusion models. The key ideas are to (i) leverage the conditional and unconditional denoising paths as a new data-partitioning perspective and (ii) adaptively enable optimal pipeline parallelism according to the denoising discrepancy between these two paths. Our framework achieves 2.31times and 2.07times latency reductions on SDXL and SD3, respectively, using two NVIDIA RTX~3090 GPUs, while preserving image quality. This result confirms the generality of our approach across U-Net-based diffusion models and DiT-based flow-matching architectures. Our approach also outperforms existing methods in acceleration under high-resolution synthesis settings. Code is available at https://github.com/kaist-dmlab/Hybridiff.

Aceleração da Difusão via Paralelismo Híbrido de Pipeline de Dados Baseado no Escalonamento de Orientação Condicional

Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

Resumo

Support