WorldKV: Memória Mundial Eficiente com Recuperação e Compressão

Resumo

Modelos de difusão de vídeo autorregressivos permitiram a geração de mundos em tempo real, condicionada por ações. No entanto, sustentar um mundo persistente, onde revisitar um ponto de vista previamente visto gera conteúdo consistente, continua sendo um problema em aberto. A atenção completa com cache KV preserva essa consistência, mas quebra as restrições de tempo real: o consumo de memória e o custo de atenção crescem linearmente com o comprimento do rollout. A inferência com janela deslizante restaura a taxa de transferência, mas descarta a consistência de longo prazo. Propomos o WorldKV, uma estrutura livre de treinamento com dois componentes: Recuperação Mundial (World Retrieval) e Compressão Mundial (World Compression). A Recuperação Mundial armazena blocos de cache KV removidos na memória GPU/CPU e recupera seletivamente blocos relevantes à cena por meio de correspondência câmera/ação, reinserindo-os na janela de atenção nativa sem recodificação. A Compressão Mundial poda tokens redundantes dentro de cada bloco via similaridade chave-chave com um quadro âncora, reduzindo pela metade o armazenamento por bloco para acomodar 2x mais histórico sob um orçamento fixo. No Matrix-Game-2.0 e LingBot-World-Fast, o WorldKV iguala ou supera a fidelidade de memória completa do cache KV com aproximadamente 2x a taxa de transferência, e é competitivo com linhas de base treinadas para memória sem qualquer ajuste fino. Página do Projeto: https://cvlab-kaist.github.io/WorldKV/

English

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/