VideoMLA: Low-rank latente KV-cache voor minuut-schaal autoregressieve videodiffusie

Samenvatting

Causale videodiffusie met lange uitrol is geconvergeerd naar een KV-cache met vast formaat en schuivend venster, waarbij recente vooruitgang binnen deze opzet innoveert door te veranderen welke tokens het venster bezetten of hoe hun posities worden gecodeerd. De KV-indeling per kop zelf, een dominante bijdrager aan streaminggeheugen en latentie, is grotendeels onveranderd gebleven. In dit artikel presenteren we de eerste studie van Multi-Head Latent Attention (MLA) in videodiffusie. VideoMLA vervangt per-kop sleutels en waarden door een gedeelde lage-rank inhoudslatent en een gedeelde ontkoppelde 3D-RoPE positie-sleutel, waardoor het KV-geheugen per token met 92,7% wordt verminderd in elke gecachte laag. We onderzoeken verder waarom MLA slaagt in videodiffusie, ondanks dat de spectrale aanname die vaak wordt gebruikt om het in taalmodellen te motiveren niet opgaat: voorgetrainde video-aandacht is niet lage-rank, met een effectieve rank op 99% energie ver boven elke praktische latente dimensie. VideoMLA behoudt kwaliteit bij compressieverhoudingen waar directe spectrale benadering een grote reconstructiefout zou voorspellen. We tonen aan dat het MLA-knelpunt, in plaats van het voorgetrainde spectrum, de effectieve rank bepaalt: zowel spectrale als willekeurige initialisatie bezetten vrijwel het volledige rankbudget vanaf initialisatie, en training behoudt dit budget terwijl het zich daarbinnen aanpast. Op VBench evenaart VideoMLA de baselines voor streaming videodiffusie met korte horizon, behaalt het de beste algemene score bij lange horizon onder de geëvalueerde methoden, en verbetert het de doorvoer met 1,23x op een enkele B200.

English

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.