SenCache: Beschleunigung von Diffusion-Modell-Inferenz durch sensibilitätsbewusstes Caching

Zusammenfassung

Diffusionsmodelle erreichen die beste Qualität bei der Videogenerierung, doch ihr Inferenzprozess bleibt aufgrund der großen Anzahl sequenzieller Denoising-Schritte rechenintensiv. Dies hat eine wachsende Forschungsrichtung zur Beschleunigung der Diffusion-Inferenz motiviert. Unter den trainierungsfreien Beschleunigungsmethoden reduziert Caching den Rechenaufwand, indem zuvor berechnete Modellausgaben über Zeitschritte hinweg wiederverwendet werden. Bisherige Caching-Methoden basieren auf heuristischen Kriterien zur Auswahl von Cache-/Wiederverwendungs-Zeitschritten und erfordern umfangreiche Anpassungen. Wir beheben diese Einschränkung durch ein prinzipienbasiertes, sensibilitätsbewusstes Caching-Framework. Konkret formalisieren wir den Caching-Fehler durch eine Analyse der Sensitivität der Modellausgabe gegenüber Störungen in den Denoising-Eingaben – d.h. dem verrauschten Latent-Zustand und dem Zeitschritt – und zeigen, dass diese Sensitivität ein entscheidender Indikator für den Caching-Fehler ist. Basierend auf dieser Analyse schlagen wir Sensitivity-Aware Caching (SenCache) vor, eine dynamische Caching-Strategie, die pro Sample adaptiv Caching-Zeitschritte auswählt. Unser Framework bietet eine theoretische Grundlage für adaptives Caching, erklärt, warum frühere empirische Heuristiken teilweise effektiv sein können, und erweitert diese zu einem dynamischen, samplespezifischen Ansatz. Experimente mit Wan 2.1, CogVideoX und LTX-Video zeigen, dass SenCache bei ähnlichem Rechenbudget eine bessere visuelle Qualität als bestehende Caching-Methoden erzielt.

English

Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.

SenCache: Beschleunigung von Diffusion-Modell-Inferenz durch sensibilitätsbewusstes Caching

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Zusammenfassung

Support