Ускорение диффузии без обучения с использованием выборки через узкие места
Training-free Diffusion Acceleration with Bottleneck Sampling
March 24, 2025
Авторы: Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui
cs.AI
Аннотация
Диффузионные модели продемонстрировали впечатляющие возможности в генерации визуального контента, однако их развертывание остается сложной задачей из-за высоких вычислительных затрат на этапе вывода. Основная причина этой вычислительной нагрузки заключается в квадратичной сложности механизма самовнимания относительно разрешения изображения или видео. Хотя существующие методы ускорения часто идут на компромисс с качеством выходных данных или требуют дорогостоящего переобучения, мы отмечаем, что большинство диффузионных моделей предварительно обучаются на более низких разрешениях, что открывает возможность использования этих низкоразрешающих априорных данных для более эффективного вывода без ухудшения производительности. В данной работе мы представляем Bottleneck Sampling — метод, не требующий дополнительного обучения, который использует низкоразрешающие априорные данные для снижения вычислительных затрат при сохранении качества выходных данных. Bottleneck Sampling следует схеме шумоподавления "высокое-низкое-высокое": он выполняет шумоподавление на высоком разрешении на начальном и конечном этапах, а на промежуточных этапах работает на более низких разрешениях. Для минимизации артефактов сглаживания и наложения мы дополнительно уточняем точки перехода между разрешениями и адаптивно смещаем временные шаги шумоподавления на каждом этапе. Мы оцениваем Bottleneck Sampling на задачах генерации изображений и видео, где обширные эксперименты показывают, что он ускоряет вывод до 3 раз для генерации изображений и до 2,5 раз для генерации видео, при этом сохраняя качество выходных данных, сопоставимое с стандартным процессом выборки на полном разрешении, по множеству метрик оценки. Код доступен по адресу: https://github.com/tyfeld/Bottleneck-Sampling.
English
Diffusion models have demonstrated remarkable capabilities in visual content
generation but remain challenging to deploy due to their high computational
cost during inference. This computational burden primarily arises from the
quadratic complexity of self-attention with respect to image or video
resolution. While existing acceleration methods often compromise output quality
or necessitate costly retraining, we observe that most diffusion models are
pre-trained at lower resolutions, presenting an opportunity to exploit these
low-resolution priors for more efficient inference without degrading
performance. In this work, we introduce Bottleneck Sampling, a training-free
framework that leverages low-resolution priors to reduce computational overhead
while preserving output fidelity. Bottleneck Sampling follows a high-low-high
denoising workflow: it performs high-resolution denoising in the initial and
final stages while operating at lower resolutions in intermediate steps. To
mitigate aliasing and blurring artifacts, we further refine the resolution
transition points and adaptively shift the denoising timesteps at each stage.
We evaluate Bottleneck Sampling on both image and video generation tasks, where
extensive experiments demonstrate that it accelerates inference by up to
3times for image generation and 2.5times for video generation, all while
maintaining output quality comparable to the standard full-resolution sampling
process across multiple evaluation metrics. Code is available at:
https://github.com/tyfeld/Bottleneck-SamplingSummary
AI-Generated Summary