ChatPaper.aiChatPaper

LightCache: メモリ効率の良い、トレーニング不要なビデオ生成の高速化

LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation

October 6, 2025
著者: Yang Xiao, Gen Li, Kaiyuan Deng, Yushu Wu, Zheng Zhan, Yanzhi Wang, Xiaolong Ma, Bo Hui
cs.AI

要旨

トレーニング不要の高速化は、拡散モデルに基づくビデオ生成における先進的な研究領域として登場しています。拡散モデルの推論における潜在変数の冗長性は、高速化の自然な突破口を提供します。本論文では、推論プロセスをエンコード、ノイズ除去、デコードの3段階に分解し、キャッシュベースの高速化手法が後者の2段階で大幅なメモリ増加を引き起こすことが多いことを観察しました。この問題に対処するため、異なる段階における推論の特性を分析し、メモリ消費を削減するための段階特化戦略を提案します:1) 非同期キャッシュスワッピング 2) 特徴チャンク化 3) 潜在変数のスライスによるデコード。同時に、これら3つの戦略によって導入される時間オーバーヘッドが、高速化による利益自体を下回ることを保証します。ベースラインと比較して、私たちのアプローチはより高速な推論速度と低いメモリ使用量を実現しつつ、品質劣化を許容範囲内に維持します。コードはhttps://github.com/NKUShaw/LightCacheで公開されています。
English
Training-free acceleration has emerged as an advanced research area in video generation based on diffusion models. The redundancy of latents in diffusion model inference provides a natural entry point for acceleration. In this paper, we decompose the inference process into the encoding, denoising, and decoding stages, and observe that cache-based acceleration methods often lead to substantial memory surges in the latter two stages. To address this problem, we analyze the characteristics of inference across different stages and propose stage-specific strategies for reducing memory consumption: 1) Asynchronous Cache Swapping. 2) Feature chunk. 3) Slicing latents to decode. At the same time, we ensure that the time overhead introduced by these three strategies remains lower than the acceleration gains themselves. Compared with the baseline, our approach achieves faster inference speed and lower memory usage, while maintaining quality degradation within an acceptable range. The Code is available at https://github.com/NKUShaw/LightCache .
PDF62October 8, 2025