ChatPaper.aiChatPaper

Адаптивное кэширование для ускорения генерации видео с диффузными трансформерами.

Adaptive Caching for Faster Video Generation with Diffusion Transformers

November 4, 2024
Авторы: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI

Аннотация

Генерация видео высокого качества с сохранением временной согласованности может быть вычислительно затратной, особенно при длительных временных интервалах. Более новые Трансформеры Диффузии (DiTs), несмотря на значительный прогресс в этом контексте, лишь усугубляют такие проблемы, так как они зависят от более крупных моделей и более сложных механизмов внимания, что приводит к замедлению скорости вывода. В данной статье мы представляем метод ускорения видео-трансформеров DiTs без обучения, названный Адаптивное Кэширование (AdaCache), который мотивирован тем, что "не все видео созданы равными образом": то есть некоторым видео требуется меньше шагов денойзинга для достижения приемлемого качества, чем другим. Основываясь на этом, мы не только кэшируем вычисления в процессе диффузии, но также разрабатываем график кэширования, адаптированный к каждому созданию видео, максимизируя компромисс между качеством и задержкой. Мы также вводим схему Регуляризации Движения (MoReg) для использования информации о видео в AdaCache, в основном управляя распределением вычислений на основе движения. В целом, наши вклады "подключи и используй" обеспечивают значительное ускорение вывода (например, до 4,7 раз на генерации видео Open-Sora 720p - 2 секунды) без ущерба качеству генерации, на различных базовых уровнях видео-трансформеров DiT.
English
Generating temporally-consistent high-fidelity videos can be computationally expensive, especially over longer temporal spans. More-recent Diffusion Transformers (DiTs) -- despite making significant headway in this context -- have only heightened such challenges as they rely on larger models and heavier attention mechanisms, resulting in slower inference speeds. In this paper, we introduce a training-free method to accelerate video DiTs, termed Adaptive Caching (AdaCache), which is motivated by the fact that "not all videos are created equal": meaning, some videos require fewer denoising steps to attain a reasonable quality than others. Building on this, we not only cache computations through the diffusion process, but also devise a caching schedule tailored to each video generation, maximizing the quality-latency trade-off. We further introduce a Motion Regularization (MoReg) scheme to utilize video information within AdaCache, essentially controlling the compute allocation based on motion content. Altogether, our plug-and-play contributions grant significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video generation) without sacrificing the generation quality, across multiple video DiT baselines.

Summary

AI-Generated Summary

PDF241November 13, 2024