VideoMLA: Cache KV Latente de Baixo Posto para Difusão de Vídeo Autoregressiva em Escala de Minutos

Resumo

A difusão de vídeo causal com longas sequências convergiu para um cache KV de janela deslizante de tamanho fixo, com avanços recentes inovando dentro desse layout ao alterar quais tokens ocupam a janela ou como suas posições são codificadas. O próprio layout KV por cabeça, um contribuinte dominante para a memória e latência de streaming, permaneceu praticamente inalterado. Neste artigo, apresentamos o primeiro estudo da Atenção Latente Multi-Cabeça (MLA) em difusão de vídeo. O VideoMLA substitui chaves e valores por cabeça por um latente de conteúdo de posto baixo compartilhado e uma chave posicional 3D-RoPE desacoplada compartilhada, reduzindo a memória KV por token em 92,7% em cada camada em cache. Investigamos ainda por que o MLA tem sucesso na difusão de vídeo, embora a suposição espectral frequentemente usada para motivá-lo em modelos de linguagem não se sustente: a atenção de vídeo pré-treinada não é de posto baixo, com posto efetivo de 99% de energia muito acima de qualquer dimensão latente prática. O VideoMLA mantém a qualidade em taxas de compressão onde a aproximação espectral direta preveria grande erro de reconstrução. Mostramos que o gargalo do MLA, e não o espectro pré-treinado, determina o posto efetivo: tanto a inicialização espectral quanto a aleatória ocupam quase todo o orçamento de posto desde a inicialização, e o treinamento preserva esse orçamento enquanto se adapta dentro dele. No VBench, o VideoMLA iguala as linhas de base de difusão de vídeo em streaming de curto horizonte, alcança a melhor pontuação geral em horizontes longos entre os métodos avaliados e melhora a vazão em 1,23x em um único B200.

English

Long-rollout causal video diffusion has converged on a fixed-size sliding-window KV cache, with recent progress innovating within this layout by changing which tokens occupy the window or how their positions are encoded. The per-head KV layout itself, a dominant contributor to streaming memory and latency, has been mostly left unchanged. In this paper, we present the first study of Multi-Head Latent Attention (MLA) in video diffusion. VideoMLA replaces per-head keys and values with a shared low-rank content latent and a shared decoupled 3D-RoPE positional key, reducing per-token KV memory by 92.7% at every cached layer. We further investigate why MLA succeeds in video diffusion even though the spectral assumption often used to motivate it in language models does not hold: pretrained video attention is not low-rank, with 99%-energy effective rank far above any practical latent dimension. VideoMLA retains quality at compression ratios where direct spectral approximation would predict large reconstruction error. We show that the MLA bottleneck, rather than the pretrained spectrum, determines the effective rank: both spectral and random initialization occupy nearly the full rank budget from initialization, and training preserves this budget while adapting within it. On VBench, VideoMLA matches short-horizon streaming video diffusion baselines, achieves the best overall score at long horizons among evaluated methods, and improves throughput by 1.23x on a single B200.