LightCache: Accelerazione Efficiente in Memoria e Senza Addestramento per la Generazione di Video

Abstract

L'accelerazione senza addestramento è emersa come un'area di ricerca avanzata nella generazione di video basata su modelli di diffusione. La ridondanza dei latenti nell'inferenza dei modelli di diffusione fornisce un punto di ingresso naturale per l'accelerazione. In questo articolo, scomponiamo il processo di inferenza nelle fasi di codifica, denoising e decodifica, e osserviamo che i metodi di accelerazione basati su cache spesso causano picchi significativi di memoria nelle ultime due fasi. Per affrontare questo problema, analizziamo le caratteristiche dell'inferenza attraverso le diverse fasi e proponiamo strategie specifiche per ridurre il consumo di memoria: 1) Scambio asincrono della cache. 2) Suddivisione in blocchi delle feature. 3) Suddivisione dei latenti per la decodifica. Allo stesso tempo, ci assicuriamo che il sovraccarico temporale introdotto da queste tre strategie rimanga inferiore ai guadagni di accelerazione stessi. Rispetto alla baseline, il nostro approccio raggiunge una velocità di inferenza più rapida e un utilizzo di memoria inferiore, mantenendo il degrado della qualità entro un intervallo accettabile. Il codice è disponibile all'indirizzo https://github.com/NKUShaw/LightCache.

English

Training-free acceleration has emerged as an advanced research area in video generation based on diffusion models. The redundancy of latents in diffusion model inference provides a natural entry point for acceleration. In this paper, we decompose the inference process into the encoding, denoising, and decoding stages, and observe that cache-based acceleration methods often lead to substantial memory surges in the latter two stages. To address this problem, we analyze the characteristics of inference across different stages and propose stage-specific strategies for reducing memory consumption: 1) Asynchronous Cache Swapping. 2) Feature chunk. 3) Slicing latents to decode. At the same time, we ensure that the time overhead introduced by these three strategies remains lower than the acceleration gains themselves. Compared with the baseline, our approach achieves faster inference speed and lower memory usage, while maintaining quality degradation within an acceptable range. The Code is available at https://github.com/NKUShaw/LightCache .

LightCache: Accelerazione Efficiente in Memoria e Senza Addestramento per la Generazione di Video

LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation

Abstract

Support