SenCache : Accélération de l'inférence des modèles de diffusion par un cache sensible à la sensibilité

Résumé

Les modèles de diffusion atteignent une qualité de génération vidéo à l'état de l'art, mais leur inférence reste coûteuse en raison du grand nombre d'étapes de débruîtage séquentielles. Cela a motivé un nombre croissant de recherches sur l'accélération de l'inférence par diffusion. Parmi les méthodes d'accélération sans apprentissage, la mise en cache réduit les calculs en réutilisant les sorties du modèle précédemment calculées sur plusieurs pas de temps. Les méthodes de cache existantes s'appuient sur des critères heuristiques pour choisir les pas de temps à mettre en cache/réutiliser et nécessitent un réglage approfondi. Nous abordons cette limitation avec un cadre de mise en cache sensible fondé sur des principes. Plus précisément, nous formalisons l'erreur de cache grâce à une analyse de la sensibilité de la sortie du modèle aux perturbations dans les entrées de débruîtage, c'est-à-dire le latent bruité et le pas de temps, et montrons que cette sensibilité est un prédicteur clé de l'erreur de cache. Sur la base de cette analyse, nous proposons Sensitivity-Aware Caching (SenCache), une politique de cache dynamique qui sélectionne de manière adaptative les pas de temps de mise en cache pour chaque échantillon. Notre cadre fournit une base théorique pour la mise en cache adaptative, explique pourquoi les heuristiques empiriques antérieures peuvent être partiellement efficaces et les étend en une approche dynamique et spécifique à l'échantillon. Les expériences sur Wan 2.1, CogVideoX et LTX-Video montrent que SenCache obtient une meilleure qualité visuelle que les méthodes de cache existantes pour des budgets computationnels similaires.

English

Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.

SenCache : Accélération de l'inférence des modèles de diffusion par un cache sensible à la sensibilité

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Résumé

Support