VideoMLA: Caché KV Latente de Bajo Rango para Difusión de Video Autorregresiva a Escala de Minutos

Resumen

La difusión causal de video de largo alcance ha convergido en un caché KV de ventana deslizante de tamaño fijo, y los avances recientes innovan dentro de esta estructura al cambiar qué tokens ocupan la ventana o cómo se codifican sus posiciones. La disposición KV por cabeza en sí misma, un factor dominante en la memoria y latencia de transmisión, ha permanecido prácticamente inalterada. En este artículo, presentamos el primer estudio de la Atención Latente Multi-Cabeza (MLA) en difusión de video. VideoMLA reemplaza las claves y valores por cabeza con un latente de contenido compartido de bajo rango y una clave posicional 3D-RoPE desacoplada y compartida, reduciendo la memoria KV por token en un 92.7% en cada capa almacenada en caché. Además, investigamos por qué MLA tiene éxito en difusión de video, incluso cuando la suposición espectral que a menudo la motiva en modelos de lenguaje no se cumple: la atención de video preentrenada no es de bajo rango, con un rango efectivo al 99% de energía muy por encima de cualquier dimensión latente práctica. VideoMLA mantiene la calidad en relaciones de compresión donde la aproximación espectral directa predeciría un gran error de reconstrucción. Demostramos que el cuello de botella de MLA, y no el espectro preentrenado, determina el rango efectivo: tanto la inicialización espectral como la aleatoria ocupan casi todo el presupuesto de rango desde la inicialización, y el entrenamiento preserva este presupuesto mientras se adapta dentro de él. En VBench, VideoMLA iguala las líneas base de difusión de video en streaming de horizonte corto, obtiene la mejor puntuación general en horizontes largos entre los métodos evaluados y mejora el rendimiento en 1.23x en un solo B200.

English

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.