WorldKV: Эффективная мировая память с глобальным извлечением и сжатием

Аннотация

Авторегрессионные видеомодели диффузии обеспечили возможность создания миров в реальном времени, обусловленных действиями. Однако поддержание устойчивого мира, где возврат к ранее виденной точке обзора даёт согласованный контент, остаётся открытой проблемой. Полное внимание с кэшем «ключ-значение» (KV-кэш) сохраняет такую согласованность, но нарушает требования реального времени: объём памяти и вычислительные затраты на внимание линейно растут с длиной генерируемой последовательности. Инференс со скользящим окном восстанавливает пропускную способность, но теряет долгосрочную согласованность. Мы предлагаем WorldKV — беструдовую структуру, состоящую из двух компонентов: «Извлечение мира» и «Сжатие мира». «Извлечение мира» сохраняет вытесненные фрагменты KV-кэша в памяти GPU/CPU и выборочно извлекает релевантные сцене фрагменты через соответствие камеры и действий, вставляя их обратно в окно внимания без повторного кодирования. «Сжатие мира» удаляет избыточные токены внутри каждого фрагмента на основе сходства «ключ-ключ» с опорным кадром, вдвое сокращая память на фрагмент и позволяя вместить в 2 раза больше истории при фиксированном бюджете. На наборах данных Matrix-Game-2.0 и LingBot-World-Fast WorldKV достигает или превосходит точность полного KV-кэша при примерно двукратной пропускной способности и конкурирует с обученными на памяти базовыми моделями без какого-либо дообучения. Страница проекта: https://cvlab-kaist.github.io/WorldKV/

English

Autoregressive video diffusion models have enabled real-time, action-conditioned world generation. However, sustaining a persistent world, where revisiting a previously seen viewpoint yields consistent content, remains an open problem. Full KV-cache attention preserves this consistency but breaks real-time constraints: memory footprint and attention cost grow linearly with rollout length. Sliding window inference restores throughput but discards long-term consistency. We propose WorldKV, a training-free framework with two components: World Retrieval and World Compression. World Retrieval stores evicted KV-cache chunks in GPU/CPU memory and selectively retrieves scene-relevant chunks via camera/ action correspondence, inserting them back into the native attention window without re-encoding. World Compression prunes redundant tokens within each chunk via key-key similarity to an anchor frame, halving per-chunk storage to fit 2x more history under a fixed budget. On Matrix-Game-2.0 and LingBot- World-Fast, WorldKV matches or exceeds full-KV memory fidelity at roughly 2x the throughput, and is competitive with memory-trained baselines without any fine-tuning. Project Page: https://cvlab-kaist.github.io/WorldKV/