VideoMLA : Cache KV latent de bas rang pour la diffusion vidéo autorégressive à l'échelle de la minute

Résumé

La diffusion vidéo causale sur séquences longues a convergé vers un cache KV à fenêtre glissante de taille fixe, les progrès récents innovant dans cette disposition en modifiant quels tokens occupent la fenêtre ou comment leurs positions sont encodées. La disposition KV par tête elle-même, contribution majeure à la mémoire et à la latence en streaming, est restée en grande partie inchangée. Dans cet article, nous présentons la première étude de l'Attention Latente Multi-Têtes (MLA) dans la diffusion vidéo. VideoMLA remplace les clés et valeurs par tête par un latent de contenu partagé de bas rang et une clé positionnelle 3D-RoPE découplée partagée, réduisant la mémoire KV par token de 92,7 % à chaque couche en cache. Nous étudions en outre pourquoi MLA réussit dans la diffusion vidéo, bien que l'hypothèse spectrale souvent utilisée pour la motiver dans les modèles de langage ne soit pas vérifiée : l'attention vidéo pré-entraînée n'est pas de bas rang, avec un rang effectif à 99 % d'énergie bien supérieur à toute dimension latente pratique. VideoMLA maintient la qualité à des taux de compression où une approximation spectrale directe prédirait une erreur de reconstruction importante. Nous montrons que le goulot d'étranglement de MLA, plutôt que le spectre pré-entraîné, détermine le rang effectif : tant l'initialisation spectrale que l'initialisation aléatoire occupent la quasi-totalité du budget de rang dès l'initialisation, et l'entraînement préserve ce budget tout en s'adaptant à l'intérieur de celui-ci. Sur VBench, VideoMLA est comparable aux bases de diffusion vidéo en streaming à horizon court, obtient le meilleur score global à horizons longs parmi les méthodes évaluées, et améliore le débit d'un facteur 1,23x sur un seul B200.

English

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.