VideoMLA: Niedrigrang-Latent-KV-Cache für minutenlange autoregressive Videodiffusion

Zusammenfassung

Kausale Videodiffusion mit langem Ausrollen hat sich auf einen KV-Cache mit festem Schiebefenster konzentriert, wobei jüngste Fortschritte innerhalb dieses Layouts dadurch erzielt wurden, dass entweder geändert wurde, welche Tokens das Fenster belegen oder wie ihre Positionen kodiert werden. Das KV-Layout pro Kopf selbst, ein dominanter Faktor für den Speicher- und Latenzbedarf im Streaming-Modus, blieb weitgehend unverändert. In diesem Beitrag präsentieren wir die erste Untersuchung von Multi-Head Latent Attention (MLA) in der Videodiffusion. VideoMLA ersetzt die Schlüssel und Werte pro Kopf durch ein gemeinsames niedrigrangiges Inhalts-Latent und einen gemeinsamen entkoppelten 3D-RoPE-Positionsschlüssel, wodurch der KV-Speicher pro Token in jeder gecachten Schicht um 92,7 % reduziert wird. Darüber hinaus untersuchen wir, warum MLA in der Videodiffusion erfolgreich ist, obwohl die spektrale Annahme, die in Sprachmodellen oft zu seiner Motivation dient, nicht zutrifft: Vorab trainierte Videoaufmerksamkeit ist nicht niedrigrangig, mit einem effektiven Rang bei 99 % Energie, der weit über jeder praktischen latenten Dimension liegt. VideoMLA erhält die Qualität bei Kompressionsverhältnissen, bei denen eine direkte spektrale Approximation einen großen Rekonstruktionsfehler vorhersagen würde. Wir zeigen, dass der MLA-Engpass und nicht das vorab trainierte Spektrum den effektiven Rang bestimmt: Sowohl spektrale als auch zufällige Initialisierung belegen nahezu das gesamte Rangbudget ab der Initialisierung, und das Training bewahrt dieses Budget, während es sich innerhalb dessen anpasst. Auf VBench erreicht VideoMLA vergleichbare Ergebnisse mit Baselines für kurzfristiges Streaming von Videodiffusion, erzielt die beste Gesamtbewertung bei langen Horizonten unter den evaluierten Methoden und verbessert den Durchsatz um das 1,23-Fache auf einer einzelnen B200.

English

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.