WorldKV: Memoria del Mundo Eficiente mediante Recuperación y Compresión

Resumen

Los modelos de difusión de video autorregresivos han permitido la generación de mundos en tiempo real condicionada por acciones. Sin embargo, mantener un mundo persistente, donde al volver a un punto de vista previamente observado se obtenga contenido coherente, sigue siendo un problema abierto. La atención completa con caché KV preserva esta coherencia, pero rompe las restricciones de tiempo real: el uso de memoria y el costo de atención crecen linealmente con la longitud del despliegue. La inferencia con ventana deslizante restaura el rendimiento, pero descarta la coherencia a largo plazo. Proponemos WorldKV, un marco sin entrenamiento con dos componentes: Recuperación del Mundo (World Retrieval) y Compresión del Mundo (World Compression). La Recuperación del Mundo almacena fragmentos de caché KV eliminados en memoria de GPU/CPU y recupera selectivamente fragmentos relevantes para la escena mediante correspondencia cámara/acción, insertándolos de nuevo en la ventana de atención nativa sin necesidad de re-codificación. La Compresión del Mundo poda los tokens redundantes dentro de cada fragmento mediante similitud clave-clave con un fotograma de referencia, reduciendo a la mitad el almacenamiento por fragmento para almacenar el doble de historial bajo un presupuesto fijo. En Matrix-Game-2.0 y LingBot-World-Fast, WorldKV iguala o supera la fidelidad de memoria de la caché KV completa con aproximadamente el doble de rendimiento, y compite con líneas base entrenadas con memoria sin necesidad de ajuste fino. Página del proyecto: https://cvlab-kaist.github.io/WorldKV/

English

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/