SenCache: Aceleración de la Inferencia en Modelos de Difusión mediante Caché Sensible a la Sensitividad

Resumen

Los modelos de difusión logran una calidad de generación de vídeo de vanguardia, pero su inferencia sigue siendo costosa debido al gran número de pasos de eliminación de ruido secuenciales. Esto ha motivado una creciente línea de investigación sobre la aceleración de la inferencia por difusión. Entre los métodos de aceleración que no requieren entrenamiento, el almacenamiento en caché reduce la computación reutilizando salidas del modelo previamente calculadas en distintos intervalos de tiempo. Los métodos de caché existentes se basan en criterios heurísticos para elegir los intervalos de almacenamiento/reutilización y requieren un ajuste extensivo. Abordamos esta limitación con un marco de almacenamiento en caché fundamentado y consciente de la sensibilidad. Específicamente, formalizamos el error de caché mediante un análisis de la sensibilidad de la salida del modelo a perturbaciones en las entradas de eliminación de ruido (es decir, el latente ruidoso y el intervalo de tiempo), y demostramos que esta sensibilidad es un predictor clave del error de caché. Basándonos en este análisis, proponemos *Sensitivity-Aware Caching* (SenCache), una política de caché dinámica que selecciona adaptativamente los intervalos de almacenamiento para cada muestra individual. Nuestro marco proporciona una base teórica para el almacenamiento en caché adaptativo, explica por qué las heurísticas empíricas previas pueden ser parcialmente efectivas y las extiende a un enfoque dinámico y específico por muestra. Los experimentos en Wan 2.1, CogVideoX y LTX-Video muestran que SenCache logra una mejor calidad visual que los métodos de caché existentes bajo presupuestos computacionales similares.

English

Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.

SenCache: Aceleración de la Inferencia en Modelos de Difusión mediante Caché Sensible a la Sensitividad

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Resumen

Support