WorldKV: Effizienter Welt-Speicher mit Weltabruf und -komprimierung

Zusammenfassung

Autoregressive Videodiffusionsmodelle haben eine echtzeitfähige, aktionskonditionierte Welterzeugung ermöglicht. Allerdings bleibt die Aufrechterhaltung einer persistenten Welt, in der das erneute Aufsuchen eines zuvor gesehenen Blickwinkels konsistente Inhalte liefert, ein offenes Problem. Die vollständige KV-Cache-Attention bewahrt diese Konsistenz, verletzt jedoch die Echtzeitanforderungen: Der Speicherbedarf und die Attention-Kosten wachsen linear mit der Rollout-Länge. Die Gleitfenster-Inferenz stellt den Durchsatz wieder her, gibt aber die Langzeitkonsistenz auf. Wir stellen WorldKV vor, ein trainingsfreies Framework mit zwei Komponenten: World Retrieval und World Compression. World Retrieval speichert entfernte KV-Cache-Blöcke im GPU-/CPU-Speicher und ruft szenenrelevante Blöcke selektiv über eine Kamera-/Aktionskorrespondenz ab, um sie ohne Neukodierung wieder in das native Attention-Fenster einzufügen. World Compression entfernt redundante Tokens innerhalb jedes Blocks durch Key-Key-Ähnlichkeit zu einem Ankerframe, halbiert den Speicher pro Block und ermöglicht so die Unterbringung der doppelten Historie innerhalb eines festen Budgets. Auf Matrix-Game-2.0 und LingBot-World-Fast erreicht oder übertrifft WorldKV die Speichertreue des vollständigen KV-Caches bei etwa dem doppelten Durchsatz und ist konkurrenzfähig mit speichertrainierten Baselines, ohne dass ein Feintuning erforderlich ist. Projektseite: https://cvlab-kaist.github.io/WorldKV/

English

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/