SenCache: Acceleramento dell'Inferenza del Modello di Diffusione tramite Cache Sensibile alla Sensibilità

Abstract

I modelli di diffusione raggiungono una qualità di generazione video allo stato dell'arte, ma la loro inferenza rimane costosa a causa del gran numero di passaggi di denoising sequenziali. Ciò ha motivato una crescente linea di ricerca sull'accelerazione dell'inferenza di diffusione. Tra i metodi di accelerazione senza addestramento, il caching riduce il calcolo riutilizzando output del modello precedentemente calcolati attraverso i timestep. I metodi di caching esistenti si basano su criteri euristici per scegliere i timestep di cache/riutilizzo e richiedono un'ampia ottimizzazione. Affrontiamo questa limitazione con un framework di caching consapevole della sensibilità e basato su principi. Nello specifico, formalizziamo l'errore di caching attraverso un'analisi della sensibilità dell'output del modello a perturbazioni negli input di denoising, cioè il latente rumoroso e il timestep, e dimostriamo che questa sensibilità è un predittore chiave dell'errore di caching. Sulla base di questa analisi, proponiamo Sensitivity-Aware Caching (SenCache), una politica di caching dinamica che seleziona adattivamente i timestep di caching su base per-campione. Il nostro framework fornisce una base teorica per il caching adattativo, spiega perché le euristiche empiriche precedenti possono essere parzialmente efficaci e le estende in un approccio dinamico e specifico per campione. Esperimenti su Wan 2.1, CogVideoX e LTX-Video mostrano che SenCache raggiunge una qualità visiva migliore rispetto ai metodi di caching esistenti con budget computazionali simili.

English

Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.

SenCache: Acceleramento dell'Inferenza del Modello di Diffusione tramite Cache Sensibile alla Sensibilità

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Abstract

Support