WorldKV: Efficiënt Wereldgeheugen met Wereldretrieval en -compressie

Samenvatting

Autoregressieve videodiffusiemodellen hebben realtime, actiegestuurde wereldgeneratie mogelijk gemaakt. Het in stand houden van een persistente wereld – waarbij het opnieuw bezoeken van een eerder gezien gezichtspunt consistente inhoud oplevert – blijft echter een open probleem. Volledige KV-cache-aandacht behoudt deze consistentie, maar doorbreekt de realtimebeperkingen: het geheugengebruik en de aandachtskosten nemen lineair toe met de uitrolduur. Sliding window-inferentie herstelt de doorvoer, maar gooit de consistentie op lange termijn weg. Wij stellen WorldKV voor, een trainingsvrij raamwerk met twee componenten: World Retrieval en World Compression. World Retrieval slaat verwijderde KV-cache-chunks op in GPU/CPU-geheugen en haalt scene-relevante chunks selectief op via camera/actie-correspondentie, waarbij ze zonder hercodering in het oorspronkelijke aandachtsvenster worden ingevoegd. World Compression snoeit redundante tokens binnen elke chunk via key-key-gelijkenis met een referentieframe, waardoor de opslag per chunk wordt gehalveerd om onder een vast budget 2x meer geschiedenis te kunnen bevatten. Op Matrix-Game-2.0 en LingBot-World-Fast evenaart of overtreft WorldKV de volledige-KV-geheugengetrouwheid bij ongeveer 2x de doorvoer en concurreert het met op geheugen getrainde baselines zonder enige fijnafstemming. Projectpagina: https://cvlab-kaist.github.io/WorldKV/

English

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/