Aceleración de Difusión sin Entrenamiento con Muestreo de Cuello de Botella
Training-free Diffusion Acceleration with Bottleneck Sampling
March 24, 2025
Autores: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
cs.AI
Resumen
Los modelos de difusión han demostrado capacidades notables en la generación de contenido visual, pero siguen siendo difíciles de implementar debido a su alto costo computacional durante la inferencia. Esta carga computacional surge principalmente de la complejidad cuadrática de la autoatención con respecto a la resolución de imágenes o videos. Si bien los métodos de aceleración existentes a menudo comprometen la calidad de la salida o requieren un costoso reentrenamiento, observamos que la mayoría de los modelos de difusión están preentrenados en resoluciones más bajas, lo que presenta una oportunidad para aprovechar estos conocimientos previos de baja resolución y lograr una inferencia más eficiente sin degradar el rendimiento. En este trabajo, presentamos Bottleneck Sampling, un marco de trabajo que no requiere entrenamiento y que aprovecha los conocimientos previos de baja resolución para reducir la sobrecarga computacional mientras preserva la fidelidad de la salida. Bottleneck Sampling sigue un flujo de trabajo de eliminación de ruido de alta-baja-alta: realiza la eliminación de ruido en alta resolución en las etapas inicial y final, mientras opera en resoluciones más bajas en los pasos intermedios. Para mitigar los artefactos de aliasing y desenfoque, refinamos aún más los puntos de transición de resolución y ajustamos adaptativamente los pasos de tiempo de eliminación de ruido en cada etapa. Evaluamos Bottleneck Sampling en tareas de generación de imágenes y videos, donde extensos experimentos demuestran que acelera la inferencia hasta 3 veces en la generación de imágenes y 2.5 veces en la generación de videos, todo ello manteniendo una calidad de salida comparable al proceso estándar de muestreo a resolución completa en múltiples métricas de evaluación. El código está disponible en: https://github.com/tyfeld/Bottleneck-Sampling.
English
Diffusion models have demonstrated remarkable capabilities in visual content
generation but remain challenging to deploy due to their high computational
cost during inference. This computational burden primarily arises from the
quadratic complexity of self-attention with respect to image or video
resolution. While existing acceleration methods often compromise output quality
or necessitate costly retraining, we observe that most diffusion models are
pre-trained at lower resolutions, presenting an opportunity to exploit these
low-resolution priors for more efficient inference without degrading
performance. In this work, we introduce Bottleneck Sampling, a training-free
framework that leverages low-resolution priors to reduce computational overhead
while preserving output fidelity. Bottleneck Sampling follows a high-low-high
denoising workflow: it performs high-resolution denoising in the initial and
final stages while operating at lower resolutions in intermediate steps. To
mitigate aliasing and blurring artifacts, we further refine the resolution
transition points and adaptively shift the denoising timesteps at each stage.
We evaluate Bottleneck Sampling on both image and video generation tasks, where
extensive experiments demonstrate that it accelerates inference by up to
3times for image generation and 2.5times for video generation, all while
maintaining output quality comparable to the standard full-resolution sampling
process across multiple evaluation metrics. Code is available at:
https://github.com/tyfeld/Bottleneck-SamplingSummary
AI-Generated Summary