SenCache: Ускорение вывода диффузионных моделей с помощью чувствительного к восприимчивости кеширования

Аннотация

Модели диффузии демонстрируют наивысшее качество генерации видео, но их вывод остается дорогостоящим из-за большого количества последовательных шагов денойзинга. Это стимулировало растущее направление исследований, посвященных ускорению вывода в диффузионных моделях. Среди методов ускорения, не требующих дообучения, кэширование позволяет снизить вычислительные затраты за счет повторного использования ранее вычисленных выходов модели на различных шагах по времени. Существующие методы кэширования опираются на эвристические критерии для выбора моментов кэширования/повторного использования и требуют тщательной настройки. Мы преодолеваем это ограничение с помощью принципиальной framework-осведомленности о чувствительности для кэширования. В частности, мы формализуем ошибку кэширования через анализ чувствительности выхода модели к возмущениям на входе денойзинга, а именно к зашумленному латентному представлению и шагу по времени, и показываем, что эта чувствительность является ключевым предиктором ошибки кэширования. На основе этого анализа мы предлагаем Sensitivity-Aware Caching (SenCache) — динамическую политику кэширования, которая адаптивно выбирает моменты кэширования для каждого отдельного примера. Наш framework обеспечивает теоретическое обоснование для адаптивного кэширования, объясняет, почему предыдущие эмпирические эвристики могут быть частично эффективны, и расширяет их до динамического, специфичного для каждого образца подхода. Эксперименты на Wan 2.1, CogVideoX и LTX-Video показывают, что SenCache обеспечивает лучшее визуальное качество по сравнению с существующими методами кэширования при аналогичных вычислительных бюджетах.

English

Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.

SenCache: Ускорение вывода диффузионных моделей с помощью чувствительного к восприимчивости кеширования

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Аннотация

Support