Aceleração de Difusão sem Treinamento com Amostragem de Gargalo
Training-free Diffusion Acceleration with Bottleneck Sampling
March 24, 2025
Autores: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
cs.AI
Resumo
Os modelos de difusão têm demonstrado capacidades notáveis na geração de conteúdo visual, mas continuam desafiadores de implantar devido ao seu alto custo computacional durante a inferência. Esse ônus computacional surge principalmente da complexidade quadrática da auto-atenção em relação à resolução de imagens ou vídeos. Embora os métodos existentes de aceleração frequentemente comprometam a qualidade da saída ou exijam um retreinamento custoso, observamos que a maioria dos modelos de difusão é pré-treinada em resoluções mais baixas, apresentando uma oportunidade para explorar esses priors de baixa resolução para uma inferência mais eficiente sem degradar o desempenho. Neste trabalho, introduzimos o Bottleneck Sampling, uma estrutura livre de treinamento que aproveita os priors de baixa resolução para reduzir a sobrecarga computacional enquanto preserva a fidelidade da saída. O Bottleneck Sampling segue um fluxo de trabalho de desruído alto-baixo-alto: ele realiza o desruído em alta resolução nos estágios inicial e final, enquanto opera em resoluções mais baixas nos passos intermediários. Para mitigar artefatos de aliasing e desfoque, refinamos ainda mais os pontos de transição de resolução e adaptamos a mudança dos passos de desruído em cada estágio. Avaliamos o Bottleneck Sampling em tarefas de geração de imagens e vídeos, onde extensos experimentos demonstram que ele acelera a inferência em até 3 vezes para geração de imagens e 2,5 vezes para geração de vídeos, tudo isso mantendo a qualidade da saída comparável ao processo padrão de amostragem em resolução total em várias métricas de avaliação. O código está disponível em: https://github.com/tyfeld/Bottleneck-Sampling.
English
Diffusion models have demonstrated remarkable capabilities in visual content
generation but remain challenging to deploy due to their high computational
cost during inference. This computational burden primarily arises from the
quadratic complexity of self-attention with respect to image or video
resolution. While existing acceleration methods often compromise output quality
or necessitate costly retraining, we observe that most diffusion models are
pre-trained at lower resolutions, presenting an opportunity to exploit these
low-resolution priors for more efficient inference without degrading
performance. In this work, we introduce Bottleneck Sampling, a training-free
framework that leverages low-resolution priors to reduce computational overhead
while preserving output fidelity. Bottleneck Sampling follows a high-low-high
denoising workflow: it performs high-resolution denoising in the initial and
final stages while operating at lower resolutions in intermediate steps. To
mitigate aliasing and blurring artifacts, we further refine the resolution
transition points and adaptively shift the denoising timesteps at each stage.
We evaluate Bottleneck Sampling on both image and video generation tasks, where
extensive experiments demonstrate that it accelerates inference by up to
3times for image generation and 2.5times for video generation, all while
maintaining output quality comparable to the standard full-resolution sampling
process across multiple evaluation metrics. Code is available at:
https://github.com/tyfeld/Bottleneck-SamplingSummary
AI-Generated Summary