Forcing-KV: Compressão Híbrida de Cache KV para Modelos de Difusão de Vídeo Autoregressivos Eficientes

Resumo

Modelos de difusão de vídeo autorregressivos (AR) adotam uma estrutura de geração em streaming, permitindo a geração de vídeos de longo horizonte com capacidade de resposta em tempo real, como exemplificado pelo paradigma de treinamento Self Forcing. No entanto, os modelos existentes de difusão de vídeo AR ainda sofrem com complexidade significativa de atenção e intenso overhead de memória devido aos caches redundantes de chave-valor (KV) entre quadros históricos, o que limita a escalabilidade. Neste artigo, enfrentamos esse desafio introduzindo a compressão de cache KV na difusão de vídeo autorregressiva. Observamos que as cabeças de atenção em modelos de difusão AR dominantes exibem padrões de atenção e papéis funcionais marcadamente distintos que permanecem estáveis entre amostras e etapas de remoção de ruído. Com base em nosso estudo empírico da especialização funcional por cabeça, dividimos as cabeças de atenção em duas categorias: cabeças estáticas, que focam nas transições entre blocos autorregressivos e na fidelidade intra-quadro, e cabeças dinâmicas, que governam o movimento e a consistência entre quadros. Em seguida, propomos o Forcing-KV, uma estratégia híbrida de compressão de cache KV que realiza poda estática estruturada para cabeças estáticas e poda dinâmica baseada em similaridade por segmento para cabeças dinâmicas. Mantendo a qualidade da saída, nosso método atinge uma velocidade de geração superior a 29 quadros por segundo em uma única GPU NVIDIA H200, juntamente com uma redução de 30% na memória cache, proporcionando acelerações de até 1,35x e 1,50x no LongLive e Self Forcing na resolução 480P, e escalando para uma aceleração de 2,82x na resolução 1080P. O código e vídeos de demonstração estão disponíveis em https://zju-jiyicheng.github.io/Forcing-KV-Page.

English

Autoregressive (AR) video diffusion models adopt a streaming generation framework, enabling long-horizon video generation with real-time responsiveness, as exemplified by the Self Forcing training paradigm. However, existing AR video diffusion models still suffer from significant attention complexity and severe memory overhead due to the redundant key-value (KV) caches across historical frames, which limits scalability. In this paper, we tackle this challenge by introducing KV cache compression into autoregressive video diffusion. We observe that attention heads in mainstream AR diffusion models exhibit markedly distinct attention patterns and functional roles that remain stable across samples and denoising steps. Building on our empirical study of head-wise functional specialization, we divide the attention heads into two categories: static heads, which focus on transitions across autoregressive chunks and intra-frame fidelity, and dynamic heads, which govern inter-frame motion and consistency. We then propose Forcing-KV, a hybrid KV cache compression strategy that performs structured static pruning for static heads and dynamic pruning based on segment-wise similarity for dynamic heads. While maintaining output quality, our method achieves a generation speed of over 29 frames per second on a single NVIDIA H200 GPU along with 30% cache memory reduction, delivering up to 1.35x and 1.50x speedups on LongLive and Self Forcing at 480P resolution, and further scaling to 2.82x speedup at 1080P resolution. Code and demo videos are provided at https://zju-jiyicheng.github.io/Forcing-KV-Page.