WorldCache: Memorizzazione Contenuto-Consapevole per l'Accelerazione di Modelli Video del Mondo

Abstract

I Diffusion Transformer (DiT) alimentano modelli video ad alta fedeltà ma rimangono computazionalmente costosi a causa del processo sequenziale di denoising e dell'oneroso meccanismo di attenzione spazio-temporale. La memorizzazione delle feature senza necessità di addestramento (training-free feature caching) accelera l'inferenza riutilizzando le attivazioni intermedie tra i passi di denoising; tuttavia, i metodi esistenti si basano largamente su un'assunzione di mantenimento di ordine zero (Zero-Order Hold), ovvero riutilizzano le feature memorizzate come istantanee statiche quando lo scostamento globale (global drift) è piccolo. Questo approccio porta spesso ad artefatti di ghosting, sfocature e incoerenze nel moto nelle scene dinamiche. Proponiamo WorldCache, un framework di memorizzazione dinamica vincolata alla percezione (Perception-Constrained Dynamical Caching) che migliora sia il quando che il come riutilizzare le feature. WorldCache introduce soglie adattive al moto, una stima dello scostamento pesata per la salienza, un'approssimazione ottimale tramite blending e warping, e una schedulazione delle soglie consapevole della fase (phase-aware) lungo i passi di diffusione. Il nostro approccio coerente permette un riutilizzo adattivo e coerente con il moto delle feature senza necessità di riaddestramento. Su Cosmos-Predict2.5-2B valutato su PAI-Bench, WorldCache raggiunge un'accelerazione dell'inferenza di 2.3 volte preservando il 99.4% della qualità del baseline, superando sostanzialmente i precedenti approcci di caching senza addestramento. Il nostro codice è accessibile su https://umair1221.github.io/World-Cache/{World-Cache}.

English

Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose WorldCache, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves 2.3times inference speedup while preserving 99.4\% of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on https://umair1221.github.io/World-Cache/{World-Cache}.

WorldCache: Memorizzazione Contenuto-Consapevole per l'Accelerazione di Modelli Video del Mondo

WorldCache: Content-Aware Caching for Accelerated Video World Models

Abstract

Support