AsyncDiff: Параллелизация моделей диффузии с помощью асинхронного шумоподавления
AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising
June 11, 2024
Авторы: Zigeng Chen, Xinyin Ma, Gongfan Fang, Zhenxiong Tan, Xinchao Wang
cs.AI
Аннотация
Модели диффузии привлекли значительный интерес со стороны сообщества благодаря их высокой способности к генерации в различных приложениях. Однако их типичная многоэтапная последовательная денойзинговая природа приводит к высокой накопительной задержке, что исключает возможности параллельных вычислений. Для решения этой проблемы мы представляем AsyncDiff, универсальную и готовую к использованию схему ускорения, которая позволяет параллельное выполнение модели на нескольких устройствах. Наш подход разделяет громоздкую модель предсказания шума на несколько компонентов, назначая каждый из них на различное устройство. Для разрыва цепи зависимостей между этими компонентами мы преобразуем традиционную последовательную денойзинговую процедуру в асинхронный процесс, используя высокую схожесть между скрытыми состояниями на последовательных этапах диффузии. В результате каждый компонент может вычисляться параллельно на отдельных устройствах. Предложенная стратегия значительно сокращает задержку вывода, минимально влияя на качество генерации. В частности, для Stable Diffusion v2.1, AsyncDiff достигает ускорения в 2,7 раза с незначительным ухудшением и в 4,0 раза с едва заметным снижением 0,38 в CLIP Score на четырех GPU NVIDIA A5000. Наши эксперименты также показывают, что AsyncDiff может легко применяться к видео-моделям диффузии с обнадеживающими результатами. Код доступен по ссылке https://github.com/czg1225/AsyncDiff.
English
Diffusion models have garnered significant interest from the community for
their great generative ability across various applications. However, their
typical multi-step sequential-denoising nature gives rise to high cumulative
latency, thereby precluding the possibilities of parallel computation. To
address this, we introduce AsyncDiff, a universal and plug-and-play
acceleration scheme that enables model parallelism across multiple devices. Our
approach divides the cumbersome noise prediction model into multiple
components, assigning each to a different device. To break the dependency chain
between these components, it transforms the conventional sequential denoising
into an asynchronous process by exploiting the high similarity between hidden
states in consecutive diffusion steps. Consequently, each component is
facilitated to compute in parallel on separate devices. The proposed strategy
significantly reduces inference latency while minimally impacting the
generative quality. Specifically, for the Stable Diffusion v2.1, AsyncDiff
achieves a 2.7x speedup with negligible degradation and a 4.0x speedup with
only a slight reduction of 0.38 in CLIP Score, on four NVIDIA A5000 GPUs. Our
experiments also demonstrate that AsyncDiff can be readily applied to video
diffusion models with encouraging performances. The code is available at
https://github.com/czg1225/AsyncDiff.Summary
AI-Generated Summary