Armazenamento em Cache Adaptativo para Geração de Vídeo Mais Rápida com Transformadores de Difusão
Adaptive Caching for Faster Video Generation with Diffusion Transformers
November 4, 2024
Autores: Kumara Kahatapitiya, Haozhe Liu, Sen He, Ding Liu, Menglin Jia, Michael S. Ryoo, Tian Xie
cs.AI
Resumo
Gerar vídeos de alta fidelidade de forma temporalmente consistente pode ser computacionalmente custoso, especialmente ao longo de períodos temporais mais longos. Os Transformadores de Difusão mais recentes (DiTs) - apesar de terem avançado significativamente nesse contexto - apenas intensificaram tais desafios, uma vez que dependem de modelos maiores e mecanismos de atenção mais pesados, resultando em velocidades de inferência mais lentas. Neste artigo, introduzimos um método sem treinamento para acelerar os DiTs de vídeo, denominado de Armazenamento Adaptativo (AdaCache), que é motivado pelo fato de que "nem todos os vídeos são criados iguais": ou seja, alguns vídeos requerem menos etapas de remoção de ruído para atingir uma qualidade razoável do que outros. Com base nisso, não apenas armazenamos cálculos por meio do processo de difusão, mas também elaboramos um cronograma de armazenamento adaptado a cada geração de vídeo, maximizando a relação qualidade-latência. Introduzimos ainda um esquema de Regularização de Movimento (MoReg) para utilizar informações de vídeo dentro do AdaCache, controlando essencialmente a alocação de computação com base no conteúdo de movimento. No geral, nossas contribuições plug-and-play concedem acelerações significativas na inferência (por exemplo, até 4,7 vezes na geração de vídeo Open-Sora 720p - 2s) sem sacrificar a qualidade da geração, em várias bases de linha de base de DiTs de vídeo.
English
Generating temporally-consistent high-fidelity videos can be computationally
expensive, especially over longer temporal spans. More-recent Diffusion
Transformers (DiTs) -- despite making significant headway in this context --
have only heightened such challenges as they rely on larger models and heavier
attention mechanisms, resulting in slower inference speeds. In this paper, we
introduce a training-free method to accelerate video DiTs, termed Adaptive
Caching (AdaCache), which is motivated by the fact that "not all videos are
created equal": meaning, some videos require fewer denoising steps to attain a
reasonable quality than others. Building on this, we not only cache
computations through the diffusion process, but also devise a caching schedule
tailored to each video generation, maximizing the quality-latency trade-off. We
further introduce a Motion Regularization (MoReg) scheme to utilize video
information within AdaCache, essentially controlling the compute allocation
based on motion content. Altogether, our plug-and-play contributions grant
significant inference speedups (e.g. up to 4.7x on Open-Sora 720p - 2s video
generation) without sacrificing the generation quality, across multiple video
DiT baselines.Summary
AI-Generated Summary