LightCache: Accelerazione Efficiente in Memoria e Senza Addestramento per la Generazione di Video
LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation
October 6, 2025
Autori: Yang Xiao, Gen Li, Kaiyuan Deng, Yushu Wu, Zheng Zhan, Yanzhi Wang, Xiaolong Ma, Bo Hui
cs.AI
Abstract
L'accelerazione senza addestramento è emersa come un'area di ricerca avanzata nella generazione di video basata su modelli di diffusione. La ridondanza dei latenti nell'inferenza dei modelli di diffusione fornisce un punto di ingresso naturale per l'accelerazione. In questo articolo, scomponiamo il processo di inferenza nelle fasi di codifica, denoising e decodifica, e osserviamo che i metodi di accelerazione basati su cache spesso causano picchi significativi di memoria nelle ultime due fasi. Per affrontare questo problema, analizziamo le caratteristiche dell'inferenza attraverso le diverse fasi e proponiamo strategie specifiche per ridurre il consumo di memoria: 1) Scambio asincrono della cache. 2) Suddivisione in blocchi delle feature. 3) Suddivisione dei latenti per la decodifica. Allo stesso tempo, ci assicuriamo che il sovraccarico temporale introdotto da queste tre strategie rimanga inferiore ai guadagni di accelerazione stessi. Rispetto alla baseline, il nostro approccio raggiunge una velocità di inferenza più rapida e un utilizzo di memoria inferiore, mantenendo il degrado della qualità entro un intervallo accettabile. Il codice è disponibile all'indirizzo https://github.com/NKUShaw/LightCache.
English
Training-free acceleration has emerged as an advanced research area in video
generation based on diffusion models. The redundancy of latents in diffusion
model inference provides a natural entry point for acceleration. In this paper,
we decompose the inference process into the encoding, denoising, and decoding
stages, and observe that cache-based acceleration methods often lead to
substantial memory surges in the latter two stages. To address this problem, we
analyze the characteristics of inference across different stages and propose
stage-specific strategies for reducing memory consumption: 1) Asynchronous
Cache Swapping. 2) Feature chunk. 3) Slicing latents to decode. At the same
time, we ensure that the time overhead introduced by these three strategies
remains lower than the acceleration gains themselves. Compared with the
baseline, our approach achieves faster inference speed and lower memory usage,
while maintaining quality degradation within an acceptable range. The Code is
available at https://github.com/NKUShaw/LightCache .