WorldKV: Memoria del Mundo Eficiente mediante Recuperación y Compresión
WorldKV: Efficient World Memory with World Retrieval and Compression
May 21, 2026
Autores: Jung Yi, Minjae Kim, Paul Hyunbin Cho, Wooseok Jang, Sangdoo Yun, Seungryong Kim
cs.AI
Resumen
Los modelos de difusión de video autorregresivos han permitido la generación de mundos en tiempo real condicionada por acciones. Sin embargo, mantener un mundo persistente, donde al volver a un punto de vista previamente observado se obtenga contenido coherente, sigue siendo un problema abierto. La atención completa con caché KV preserva esta coherencia, pero rompe las restricciones de tiempo real: el uso de memoria y el costo de atención crecen linealmente con la longitud del despliegue. La inferencia con ventana deslizante restaura el rendimiento, pero descarta la coherencia a largo plazo. Proponemos WorldKV, un marco sin entrenamiento con dos componentes: Recuperación del Mundo (World Retrieval) y Compresión del Mundo (World Compression). La Recuperación del Mundo almacena fragmentos de caché KV eliminados en memoria de GPU/CPU y recupera selectivamente fragmentos relevantes para la escena mediante correspondencia cámara/acción, insertándolos de nuevo en la ventana de atención nativa sin necesidad de re-codificación. La Compresión del Mundo poda los tokens redundantes dentro de cada fragmento mediante similitud clave-clave con un fotograma de referencia, reduciendo a la mitad el almacenamiento por fragmento para almacenar el doble de historial bajo un presupuesto fijo. En Matrix-Game-2.0 y LingBot-World-Fast, WorldKV iguala o supera la fidelidad de memoria de la caché KV completa con aproximadamente el doble de rendimiento, y compite con líneas base entrenadas con memoria sin necesidad de ajuste fino. Página del proyecto: https://cvlab-kaist.github.io/WorldKV/
English
Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/