WorldKV: Efficiënt Wereldgeheugen met Wereldretrieval en -compressie
WorldKV: Efficient World Memory with World Retrieval and Compression
May 21, 2026
Auteurs: Jung Yi, Minjae Kim, Paul Hyunbin Cho, Wooseok Jang, Sangdoo Yun, Seungryong Kim
cs.AI
Samenvatting
Autoregressieve videodiffusiemodellen hebben realtime, actiegestuurde wereldgeneratie mogelijk gemaakt. Het in stand houden van een persistente wereld – waarbij het opnieuw bezoeken van een eerder gezien gezichtspunt consistente inhoud oplevert – blijft echter een open probleem. Volledige KV-cache-aandacht behoudt deze consistentie, maar doorbreekt de realtimebeperkingen: het geheugengebruik en de aandachtskosten nemen lineair toe met de uitrolduur. Sliding window-inferentie herstelt de doorvoer, maar gooit de consistentie op lange termijn weg. Wij stellen WorldKV voor, een trainingsvrij raamwerk met twee componenten: World Retrieval en World Compression. World Retrieval slaat verwijderde KV-cache-chunks op in GPU/CPU-geheugen en haalt scene-relevante chunks selectief op via camera/actie-correspondentie, waarbij ze zonder hercodering in het oorspronkelijke aandachtsvenster worden ingevoegd. World Compression snoeit redundante tokens binnen elke chunk via key-key-gelijkenis met een referentieframe, waardoor de opslag per chunk wordt gehalveerd om onder een vast budget 2x meer geschiedenis te kunnen bevatten. Op Matrix-Game-2.0 en LingBot-World-Fast evenaart of overtreft WorldKV de volledige-KV-geheugengetrouwheid bij ongeveer 2x de doorvoer en concurreert het met op geheugen getrainde baselines zonder enige fijnafstemming. Projectpagina: https://cvlab-kaist.github.io/WorldKV/
English
Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/