SenCache: Versnelling van Inferentie in Diffusiemodellen via Gevoeligheidsbewust Cachen
SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching
February 27, 2026
Auteurs: Yasaman Haghighi, Alexandre Alahi
cs.AI
Samenvatting
Diffusiemodellen behalen state-of-the-art kwaliteit voor videogeneratie, maar hun inferentie blijft duur vanwege het grote aantal sequentiële denoisestappen. Dit heeft een groeiende onderzoekslijn gemotiveerd voor het versnellen van diffusie-inferentie. Onder de trainingsvrije versnellingsmethoden vermindert caching de rekenkosten door eerder berekende modeloutputs over verschillende tijdstappen heen te hergebruiken. Bestaande cachingmethoden vertrouwen op heuristische criteria om cache-/hergebruikstijdstappen te kiezen en vereisen uitgebreide afstemming. Wij pakken deze beperking aan met een principieel, gevoeligheidsbewust cachingraamwerk. Concreet formaliseren we de cachingfout door een analyse van de gevoeligheid van de modeloutput voor verstoringen in de denoise-inputs, d.w.z. de latente ruisrepresentatie en de tijdstap, en tonen we aan dat deze gevoeligheid een cruciale voorspeller is van de cachingfout. Gebaseerd op deze analyse stellen we Sensitivity-Aware Caching (SenCache) voor, een dynamisch cachingbeleid dat adaptief cachingtijdstappen selecteert op basis van elk individueel sample. Ons raamwerk biedt een theoretische basis voor adaptieve caching, verklaart waarom eerdere empirische heuristieken gedeeltelijk effectief kunnen zijn, en breidt deze uit naar een dynamische, samplespecifieke aanpak. Experimenten op Wan 2.1, CogVideoX en LTX-Video tonen aan dat SenCache een betere visuele kwaliteit bereikt dan bestaande cachingmethoden onder vergelijkbare rekenbudgetten.
English
Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.