LightCache: Aceleración Eficiente en Memoria y Libre de Entrenamiento para la Generación de Vídeo
LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation
October 6, 2025
Autores: Yang Xiao, Gen Li, Kaiyuan Deng, Yushu Wu, Zheng Zhan, Yanzhi Wang, Xiaolong Ma, Bo Hui
cs.AI
Resumen
La aceleración sin entrenamiento ha surgido como un área de investigación avanzada en la generación de videos basada en modelos de difusión. La redundancia de los latentes en la inferencia de modelos de difusión proporciona un punto de entrada natural para la aceleración. En este artículo, descomponemos el proceso de inferencia en las etapas de codificación, eliminación de ruido y decodificación, y observamos que los métodos de aceleración basados en caché a menudo provocan aumentos sustanciales de memoria en las dos últimas etapas. Para abordar este problema, analizamos las características de la inferencia en las diferentes etapas y proponemos estrategias específicas para reducir el consumo de memoria: 1) Intercambio asíncrono de caché. 2) Fragmentación de características. 3) Segmentación de latentes para decodificar. Al mismo tiempo, nos aseguramos de que la sobrecarga de tiempo introducida por estas tres estrategias se mantenga por debajo de las ganancias de aceleración en sí mismas. En comparación con la línea base, nuestro enfoque logra una velocidad de inferencia más rápida y un uso de memoria más bajo, manteniendo la degradación de la calidad dentro de un rango aceptable. El código está disponible en https://github.com/NKUShaw/LightCache.
English
Training-free acceleration has emerged as an advanced research area in video
generation based on diffusion models. The redundancy of latents in diffusion
model inference provides a natural entry point for acceleration. In this paper,
we decompose the inference process into the encoding, denoising, and decoding
stages, and observe that cache-based acceleration methods often lead to
substantial memory surges in the latter two stages. To address this problem, we
analyze the characteristics of inference across different stages and propose
stage-specific strategies for reducing memory consumption: 1) Asynchronous
Cache Swapping. 2) Feature chunk. 3) Slicing latents to decode. At the same
time, we ensure that the time overhead introduced by these three strategies
remains lower than the acceleration gains themselves. Compared with the
baseline, our approach achieves faster inference speed and lower memory usage,
while maintaining quality degradation within an acceptable range. The Code is
available at https://github.com/NKUShaw/LightCache .