SenCache: 感度を考慮したキャッシュによる拡散モデル推論の高速化
SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching
February 27, 2026
著者: Yasaman Haghighi, Alexandre Alahi
cs.AI
要旨
拡散モデルは映像生成において最先端の品質を達成しているが、多数の逐次的ノイズ除去ステップを要するため、推論時の計算コストが依然として高い。この課題に対処するため、拡散推論の高速化に関する研究が活発に行われている。訓練を必要としない高速化手法の中でも、キャッシュ法は異なるタイムステップ間で事前に計算されたモデル出力を再利用することで計算量を削減する。既存のキャッシュ法は、キャッシュ/再利用するタイムステップを選択する際に経験的な基準に依存し、多大な調整を必要とする。我々はこの制約を、理論に基づいた感度認識キャッシュフレームワークによって解決する。具体的には、ノイズを含む潜在変数とタイムステップというノイズ除去入力への摂動に対するモデル出力の感度を分析し、キャッシュ誤差を定式化する。この感度がキャッシュ誤差の主要な予測因子であることを示す。この分析に基づき、サンプル単位で適応的にキャッシュタイムステップを選択する動的キャッシュポリシーであるSensitivity-Aware Caching (SenCache)を提案する。本フレームワークは適応的キャッシュの理論的基盤を提供し、従来の経験的ヒューリスティックが部分的に有効であった理由を説明するとともに、それを動的かつサンプル特化的なアプローチに拡張する。Wan 2.1、CogVideoX、LTX-Videoを用いた実験により、SenCacheが同等の計算予算下で既存のキャッシュ法よりも優れた視覚的品質を達成することを示す。
English
Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.