WorldKV : Mémoire mondiale efficace avec récupération et compression mondiales

Résumé

Les modèles de diffusion vidéo autorégressifs ont permis la génération de mondes conditionnée par l'action en temps réel. Cependant, maintenir un monde persistant, où le retour à un point de vue déjà visité produit un contenu cohérent, reste un problème ouvert. L'attention complète avec cache KV préserve cette cohérence mais rompt les contraintes temps réel : l'empreinte mémoire et le coût de l'attention augmentent linéairement avec la longueur du déploiement. L'inférence par fenêtre glissante rétablit le débit mais perd la cohérence à long terme. Nous proposons WorldKV, un cadre sans entraînement comportant deux composants : World Retrieval et World Compression. World Retrieval stocke les blocs de cache KV évincés dans la mémoire GPU/CPU et récupère sélectivement les blocs pertinents pour la scène via une correspondance caméra/action, en les réinsérant dans la fenêtre d'attention native sans ré-encodage. World Compression élague les jetons redondants au sein de chaque bloc via la similarité clé-clé avec une image de référence, réduisant de moitié le stockage par bloc pour contenir 2 fois plus d'historique à budget fixe. Sur Matrix-Game-2.0 et LingBot-World-Fast, WorldKV égalise ou dépasse la fidélité mémoire plein KV avec environ 2 fois le débit, et se montre compétitif par rapport aux références entraînées avec mémoire, sans aucun réglage fin. Page du projet : https://cvlab-kaist.github.io/WorldKV/

English

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/