VideoMLA: Низкоранговый латентный KV-кэш для авторегрессионной видеодиффузии минутного масштаба

Аннотация

Долгосрочная каузальная диффузия видео сошлась на использовании фиксированного скользящего окна KV-кэша, причем недавние достижения развиваются в рамках этой схемы за счет изменения того, какие токены занимают окно или как кодируются их позиции. Сама структура KV-кэша для каждой головы, являющаяся основным источником затрат памяти и задержки при потоковой передаче, в основном оставалась неизменной. В данной работе мы представляем первое исследование мультиголового латентного внимания (Multi-Head Latent Attention, MLA) в диффузии видео. VideoMLA заменяет ключи и значения для каждой головы общим низкоранговым латентным представлением содержимого и общим раздельным позиционным ключом 3D-RoPE, сокращая объем памяти KV на токен на 92,7% на каждом кэшированном слое. Мы дополнительно исследуем, почему MLA успешно применяется в диффузии видео, даже если спектральное предположение, часто используемое для его обоснования в языковых моделях, не выполняется: предобученное внимание к видео не является низкоранговым, причем эффективный ранг с 99%-ной энергией значительно превышает любой практически значимый размер латентного пространства. VideoMLA сохраняет качество при коэффициентах сжатия, при которых прямое спектральное приближение предсказывало бы большую ошибку реконструкции. Мы показываем, что эффективный ранг определяется не предобученным спектром, а бутылочным горлышком MLA: как спектральная, так и случайная инициализация с самого начала почти полностью используют выделенный ранг, а обучение сохраняет этот бюджет, адаптируясь в его пределах. На VBench VideoMLA сопоставим с базовыми методами краткосрочной потоковой диффузии видео, достигает лучшего общего показателя при долгосрочных горизонтах среди оцененных методов и повышает пропускную способность в 1,23 раза на одном B200.

English

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.