SenCache: Aceleração da Inferência em Modelos de Difusão por meio de Cache Sensível à Sensitividade

Resumo

Os modelos de difusão alcançam a qualidade de geração de vídeo mais avançada, mas sua inferência permanece cara devido ao grande número de etapas sequenciais de remoção de ruído. Isso motivou uma linha crescente de pesquisa sobre aceleração da inferência por difusão. Entre os métodos de aceleração sem treinamento, o cache reduz a computação reutilizando saídas do modelo previamente calculadas entre as etapas de tempo. Os métodos de cache existentes dependem de critérios heurísticos para escolher os momentos de cache/reutilização e exigem ajustes extensivos. Nós abordamos esta limitação com uma estrutura de cache fundamentada na sensibilidade. Especificamente, formalizamos o erro de cache através de uma análise da sensibilidade da saída do modelo a perturbações nas entradas de remoção de ruído, ou seja, o latente ruidoso e a etapa de tempo, e mostramos que essa sensibilidade é um preditor chave do erro de cache. Com base nesta análise, propomos o Sensitivity-Aware Caching (SenCache), uma política de cache dinâmica que seleciona adaptivamente os momentos de cache por amostra. Nossa estrutura fornece uma base teórica para o cache adaptativo, explica por que heurísticas empíricas anteriores podem ser parcialmente eficazes e as estende para uma abordagem dinâmica e específica por amostra. Experimentos no Wan 2.1, CogVideoX e LTX-Video mostram que o SenCache alcança melhor qualidade visual do que os métodos de cache existentes sob orçamentos computacionais similares.

English

Diffusion models achieve state-of-the-art video generation quality, but their inference remains expensive due to the large number of sequential denoising steps. This has motivated a growing line of research on accelerating diffusion inference. Among training-free acceleration methods, caching reduces computation by reusing previously computed model outputs across timesteps. Existing caching methods rely on heuristic criteria to choose cache/reuse timesteps and require extensive tuning. We address this limitation with a principled sensitivity-aware caching framework. Specifically, we formalize the caching error through an analysis of the model output sensitivity to perturbations in the denoising inputs, i.e., the noisy latent and the timestep, and show that this sensitivity is a key predictor of caching error. Based on this analysis, we propose Sensitivity-Aware Caching (SenCache), a dynamic caching policy that adaptively selects caching timesteps on a per-sample basis. Our framework provides a theoretical basis for adaptive caching, explains why prior empirical heuristics can be partially effective, and extends them to a dynamic, sample-specific approach. Experiments on Wan 2.1, CogVideoX, and LTX-Video show that SenCache achieves better visual quality than existing caching methods under similar computational budgets.

SenCache: Aceleração da Inferência em Modelos de Difusão por meio de Cache Sensível à Sensitividade

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Resumo

Support