ChatPaper.aiChatPaper

LightCache: Aceleración Eficiente en Memoria y Libre de Entrenamiento para la Generación de Vídeo

LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation

October 6, 2025
Autores: Yang Xiao, Gen Li, Kaiyuan Deng, Yushu Wu, Zheng Zhan, Yanzhi Wang, Xiaolong Ma, Bo Hui
cs.AI

Resumen

La aceleración sin entrenamiento ha surgido como un área de investigación avanzada en la generación de videos basada en modelos de difusión. La redundancia de los latentes en la inferencia de modelos de difusión proporciona un punto de entrada natural para la aceleración. En este artículo, descomponemos el proceso de inferencia en las etapas de codificación, eliminación de ruido y decodificación, y observamos que los métodos de aceleración basados en caché a menudo provocan aumentos sustanciales de memoria en las dos últimas etapas. Para abordar este problema, analizamos las características de la inferencia en las diferentes etapas y proponemos estrategias específicas para reducir el consumo de memoria: 1) Intercambio asíncrono de caché. 2) Fragmentación de características. 3) Segmentación de latentes para decodificar. Al mismo tiempo, nos aseguramos de que la sobrecarga de tiempo introducida por estas tres estrategias se mantenga por debajo de las ganancias de aceleración en sí mismas. En comparación con la línea base, nuestro enfoque logra una velocidad de inferencia más rápida y un uso de memoria más bajo, manteniendo la degradación de la calidad dentro de un rango aceptable. El código está disponible en https://github.com/NKUShaw/LightCache.
English
Training-free acceleration has emerged as an advanced research area in video generation based on diffusion models. The redundancy of latents in diffusion model inference provides a natural entry point for acceleration. In this paper, we decompose the inference process into the encoding, denoising, and decoding stages, and observe that cache-based acceleration methods often lead to substantial memory surges in the latter two stages. To address this problem, we analyze the characteristics of inference across different stages and propose stage-specific strategies for reducing memory consumption: 1) Asynchronous Cache Swapping. 2) Feature chunk. 3) Slicing latents to decode. At the same time, we ensure that the time overhead introduced by these three strategies remains lower than the acceleration gains themselves. Compared with the baseline, our approach achieves faster inference speed and lower memory usage, while maintaining quality degradation within an acceptable range. The Code is available at https://github.com/NKUShaw/LightCache .
PDF62October 8, 2025