LightCache: 메모리 효율적이고 학습이 필요 없는 비디오 생성 가속 기술
LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation
October 6, 2025
저자: Yang Xiao, Gen Li, Kaiyuan Deng, Yushu Wu, Zheng Zhan, Yanzhi Wang, Xiaolong Ma, Bo Hui
cs.AI
초록
트레이닝 없이 가속화하는 방법은 디퓨전 모델 기반 비디오 생성 분야에서 진보된 연구 영역으로 부상하고 있습니다. 디퓨전 모델 추론 과정에서 잠재 변수의 중복성은 가속화를 위한 자연스러운 접근점을 제공합니다. 본 논문에서는 추론 과정을 인코딩, 노이즈 제거, 디코딩 단계로 분해하고, 캐시 기반 가속화 방법이 후반 두 단계에서 상당한 메모리 급증을 초래하는 것을 관찰했습니다. 이 문제를 해결하기 위해, 우리는 각 단계별 추론의 특성을 분석하고 메모리 소비를 줄이기 위한 단계별 전략을 제안합니다: 1) 비동기 캐시 스와핑, 2) 특징 청킹, 3) 잠재 변수 슬라이싱을 통한 디코딩. 동시에, 이 세 가지 전략으로 인해 발생하는 시간 오버헤드가 가속화로 얻는 이득보다 낮도록 보장합니다. 베이스라인과 비교했을 때, 우리의 접근 방식은 더 빠른 추론 속도와 더 낮은 메모리 사용량을 달성하면서도 품질 저하를 허용 가능한 범위 내로 유지합니다. 코드는 https://github.com/NKUShaw/LightCache 에서 확인할 수 있습니다.
English
Training-free acceleration has emerged as an advanced research area in video
generation based on diffusion models. The redundancy of latents in diffusion
model inference provides a natural entry point for acceleration. In this paper,
we decompose the inference process into the encoding, denoising, and decoding
stages, and observe that cache-based acceleration methods often lead to
substantial memory surges in the latter two stages. To address this problem, we
analyze the characteristics of inference across different stages and propose
stage-specific strategies for reducing memory consumption: 1) Asynchronous
Cache Swapping. 2) Feature chunk. 3) Slicing latents to decode. At the same
time, we ensure that the time overhead introduced by these three strategies
remains lower than the acceleration gains themselves. Compared with the
baseline, our approach achieves faster inference speed and lower memory usage,
while maintaining quality degradation within an acceptable range. The Code is
available at https://github.com/NKUShaw/LightCache .