ChatPaper.aiChatPaper

Caché Adaptativa para una Generación de Video más Rápida con Transformadores de Difusión

Adaptive Caching for Faster Video Generation with Diffusion Transformers

November 4, 2024
Autores: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI

Resumen

Generar videos de alta fidelidad consistentes temporalmente puede resultar computacionalmente costoso, especialmente en intervalos temporales más largos. Los Transformadores de Difusión más recientes (DiTs) - a pesar de haber avanzado significativamente en este contexto - han intensificado tales desafíos al depender de modelos más grandes y mecanismos de atención más pesados, lo que resulta en velocidades de inferencia más lentas. En este documento, presentamos un método sin entrenamiento para acelerar los video DiTs, denominado Caché Adaptativa (AdaCache), que se inspira en el hecho de que "no todos los videos son iguales": es decir, algunos videos requieren menos pasos de eliminación de ruido para lograr una calidad razonable que otros. Basándonos en esto, no solo almacenamos cálculos a través del proceso de difusión, sino que también diseñamos un cronograma de almacenamiento en caché adaptado a cada generación de video, maximizando el equilibrio calidad-latencia. Además, introducimos un esquema de Regularización de Movimiento (MoReg) para utilizar la información de video dentro de AdaCache, controlando esencialmente la asignación de cálculo en función del contenido de movimiento. En conjunto, nuestras contribuciones plug-and-play otorgan aceleraciones significativas en la inferencia (por ejemplo, hasta 4.7 veces en la generación de video de 720p - 2s en Open-Sora) sin sacrificar la calidad de generación, en varios baselines de video DiT.
English
Generating temporally-consistent high-fidelity videos can be computationally expensive, especially over longer temporal spans. More-recent Diffusion Transformers (DiTs) -- despite making significant headway in this context -- have only heightened such challenges as they rely on larger models and heavier attention mechanisms, resulting in slower inference speeds. In this paper, we introduce a training-free method to accelerate video DiTs, termed Adaptive Caching (AdaCache), which is motivated by the fact that "not all videos are created equal": meaning, some videos require fewer denoising steps to attain a reasonable quality than others. Building on this, we not only cache computations through the diffusion process, but also devise a caching schedule tailored to each video generation, maximizing the quality-latency trade-off. We further introduce a Motion Regularization (MoReg) scheme to utilize video information within AdaCache, essentially controlling the compute allocation based on motion content. Altogether, our plug-and-play contributions grant significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video generation) without sacrificing the generation quality, across multiple video DiT baselines.

Summary

AI-Generated Summary

PDF241November 13, 2024