Forcing-KV: Compresión Híbrida de Caché KV para Modelos de Difusión de Video Autoregresivos Eficientes

Resumen

Los modelos de difusión de video autorregresivos (AR) adoptan un marco de generación en streaming, lo que permite la generación de video de largo alcance con capacidad de respuesta en tiempo real, como ejemplifica el paradigma de entrenamiento Self Forcing. Sin embargo, los modelos AR de difusión de video existentes aún sufren una complejidad de atención significativa y un grave consumo de memoria debido a las cachés redundantes de clave-valor (KV) a través de los fotogramas históricos, lo que limita la escalabilidad. En este artículo abordamos este desafío introduciendo la compresión de la caché KV en la difusión de video autorregresiva. Observamos que las cabezas de atención en los modelos AR de difusión convencionales exhiben patrones de atención y roles funcionales marcadamente distintos que permanecen estables entre muestras y pasos de eliminación de ruido. Basándonos en nuestro estudio empírico de la especialización funcional por cabeza, dividimos las cabezas de atención en dos categorías: cabezas estáticas, que se centran en las transiciones entre bloques autorregresivos y en la fidelidad intra-fotograma, y cabezas dinámicas, que gobiernan el movimiento y la consistencia entre fotogramas. A continuación, proponemos Forcing-KV, una estrategia híbrida de compresión de la caché KV que realiza poda estática estructurada para las cabezas estáticas y poda dinámica basada en similitud por segmentos para las cabezas dinámicas. Manteniendo la calidad de salida, nuestro método alcanza una velocidad de generación de más de 29 fotogramas por segundo en una única GPU NVIDIA H200, junto con una reducción del 30% en la memoria de caché, logrando aceleraciones de hasta 1.35× y 1.50× en LongLive y Self Forcing a resolución 480P, y escalando hasta una aceleración de 2.82× a resolución 1080P. El código y los videos de demostración están disponibles en https://zju-jiyicheng.github.io/Forcing-KV-Page.

English

Autoregressive (AR) video diffusion models adopt a streaming generation framework, enabling long-horizon video generation with real-time responsiveness, as exemplified by the Self Forcing training paradigm. However, existing AR video diffusion models still suffer from significant attention complexity and severe memory overhead due to the redundant key-value (KV) caches across historical frames, which limits scalability. In this paper, we tackle this challenge by introducing KV cache compression into autoregressive video diffusion. We observe that attention heads in mainstream AR diffusion models exhibit markedly distinct attention patterns and functional roles that remain stable across samples and denoising steps. Building on our empirical study of head-wise functional specialization, we divide the attention heads into two categories: static heads, which focus on transitions across autoregressive chunks and intra-frame fidelity, and dynamic heads, which govern inter-frame motion and consistency. We then propose Forcing-KV, a hybrid KV cache compression strategy that performs structured static pruning for static heads and dynamic pruning based on segment-wise similarity for dynamic heads. While maintaining output quality, our method achieves a generation speed of over 29 frames per second on a single NVIDIA H200 GPU along with 30% cache memory reduction, delivering up to 1.35x and 1.50x speedups on LongLive and Self Forcing at 480P resolution, and further scaling to 2.82x speedup at 1080P resolution. Code and demo videos are provided at https://zju-jiyicheng.github.io/Forcing-KV-Page.