Caché Adaptativa para una Generación de Video más Rápida con Transformadores de Difusión
Adaptive Caching for Faster Video Generation with Diffusion Transformers
November 4, 2024
Autores: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI
Resumen
Generar videos de alta fidelidad consistentes temporalmente puede resultar computacionalmente costoso, especialmente en intervalos temporales más largos. Los Transformadores de Difusión más recientes (DiTs) - a pesar de haber avanzado significativamente en este contexto - han intensificado tales desafíos al depender de modelos más grandes y mecanismos de atención más pesados, lo que resulta en velocidades de inferencia más lentas. En este documento, presentamos un método sin entrenamiento para acelerar los video DiTs, denominado Caché Adaptativa (AdaCache), que se inspira en el hecho de que "no todos los videos son iguales": es decir, algunos videos requieren menos pasos de eliminación de ruido para lograr una calidad razonable que otros. Basándonos en esto, no solo almacenamos cálculos a través del proceso de difusión, sino que también diseñamos un cronograma de almacenamiento en caché adaptado a cada generación de video, maximizando el equilibrio calidad-latencia. Además, introducimos un esquema de Regularización de Movimiento (MoReg) para utilizar la información de video dentro de AdaCache, controlando esencialmente la asignación de cálculo en función del contenido de movimiento. En conjunto, nuestras contribuciones plug-and-play otorgan aceleraciones significativas en la inferencia (por ejemplo, hasta 4.7 veces en la generación de video de 720p - 2s en Open-Sora) sin sacrificar la calidad de generación, en varios baselines de video DiT.
English
Generating temporally-consistent high-fidelity videos can be computationally
expensive, especially over longer temporal spans. More-recent Diffusion
Transformers (DiTs) -- despite making significant headway in this context --
have only heightened such challenges as they rely on larger models and heavier
attention mechanisms, resulting in slower inference speeds. In this paper, we
introduce a training-free method to accelerate video DiTs, termed Adaptive
Caching (AdaCache), which is motivated by the fact that "not all videos are
created equal": meaning, some videos require fewer denoising steps to attain a
reasonable quality than others. Building on this, we not only cache
computations through the diffusion process, but also devise a caching schedule
tailored to each video generation, maximizing the quality-latency trade-off. We
further introduce a Motion Regularization (MoReg) scheme to utilize video
information within AdaCache, essentially controlling the compute allocation
based on motion content. Altogether, our plug-and-play contributions grant
significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video
generation) without sacrificing the generation quality, across multiple video
DiT baselines.Summary
AI-Generated Summary