WorldCache: Aceleración de Modelos del Mundo Gratuita mediante Almacenamiento en Caché Heterogéneo de Tokens
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching
March 6, 2026
Autores: Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu
cs.AI
Resumen
Los modelos del mundo basados en difusión han demostrado un gran potencial para la simulación unificada del mundo, pero la eliminación iterativa de ruido sigue siendo demasiado costosa para su uso interactivo y las simulaciones de horizonte largo. Si bien el almacenamiento en caché de características puede acelerar la inferencia sin entrenamiento, encontramos que las políticas diseñadas para difusión unimodal se transfieren deficientemente a los modelos del mundo debido a dos obstáculos específicos: la heterogeneidad de tokens por el acoplamiento multimodal y la variación espacial, y las dinámicas temporales no uniformes donde un pequeño conjunto de tokens difíciles impulsa el crecimiento del error, haciendo que el salto uniforme sea inestable o excesivamente conservador. Proponemos WorldCache, un marco de almacenamiento en caché adaptado a los modelos del mundo de difusión. Introducimos la Predicción Heterogénea de Tokens Guiada por Curvatura, que utiliza una puntuación de curvatura basada en la física para estimar la predictibilidad de los tokens y aplica un predictor amortiguado guiado por Hermite para tokens caóticos con cambios abruptos de dirección. También diseñamos el Salto Adaptativo Prioritizado para lo Caótico, que acumula una señal de deriva adimensional normalizada por curvatura y recomputa solo cuando los tokens cuello de botella comienzan a derivar. Los experimentos en modelos del mundo de difusión muestran que WorldCache ofrece aceleraciones de extremo a extremo de hasta 3.7 veces manteniendo un 98% de calidad en la simulación, demostrando las vastas ventajas y practicidad de WorldCache en escenarios con recursos limitados. Nuestro código se publica en https://github.com/FofGofx/WorldCache.
English
Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: token heterogeneity from multi-modal coupling and spatial variation, and non-uniform temporal dynamics where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose WorldCache, a caching framework tailored to diffusion world models. We introduce Curvature-guided Heterogeneous Token Prediction, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design Chaotic-prioritized Adaptive Skipping, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to 3.7times end-to-end speedups while maintaining 98\% rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.