WorldCache: Almacenamiento en Caché Consciente del Contenido para la Aceleración de Modelos de Mundo de Video
WorldCache: Content-Aware Caching for Accelerated Video World Models
March 23, 2026
Autores: Umair Nawaz, Ahmed Heakl, Ufaq Khan, Abdelrahman Shaker, Salman Khan, Fahad Shahbaz Khan
cs.AI
Resumen
Los Transformadores de Difusión (DiTs) impulsan modelos de video de alta fidelidad, pero siguen siendo computacionalmente costosos debido a la eliminación secuencial de ruido y a la costosa atención espacio-temporal. El almacenamiento en caché de características sin necesidad de entrenamiento acelera la inferencia mediante la reutilización de activaciones intermedias en los pasos de desruido; sin embargo, los métodos existentes se basan en gran medida en una suposición de Mantenimiento de Orden Cero, es decir, reutilizar las características en caché como instantáneas estáticas cuando la deriva global es pequeña. Esto a menudo genera artefactos de fantasmas, desenfoque e inconsistencias de movimiento en escenas dinámicas. Proponemos WorldCache, un marco de Almacenamiento en Caché Dinámico con Restricciones de Percepción que mejora tanto cuándo como cómo reutilizar las características. WorldCache introduce umbrales adaptativos al movimiento, estimación de deriva ponderada por prominencia, aproximación óptima mediante fusión y deformación, y programación de umbrales consciente de la fase a lo largo de los pasos de difusión. Nuestro enfoque cohesivo permite una reutilización de características adaptativa y consistente con el movimiento sin necesidad de reentrenamiento. En Cosmos-Predict2.5-2B evaluado en PAI-Bench, WorldCache logra una aceleración de la inferencia de 2.3 veces mientras preserva el 99.4% de la calidad de la línea base, superando sustancialmente a los enfoques de almacenamiento en caché previos sin entrenamiento. Nuestro código puede consultarse en https://umair1221.github.io/World-Cache/{World-Cache}.
English
Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose WorldCache, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves 2.3times inference speedup while preserving 99.4\% of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on https://umair1221.github.io/World-Cache/{World-Cache}.