WorldCache: Accelerare i Modelli del Mondo Gratuitamente tramite Cache Eterogenea di Token
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching
March 6, 2026
Autori: Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu
cs.AI
Abstract
I modelli del mondo basati su diffusione hanno dimostrato un forte potenziale per la simulazione unificata del mondo, ma l'iterativo processo di denoising rimane troppo costoso per un uso interattivo e per rollout a lungo orizzonte. Sebbene la cache delle feature possa accelerare l'inferenza senza addestramento, abbiamo riscontrato che le politiche progettate per la diffusione unimodale si trasferiscono male ai modelli del mondo a causa di due ostacoli specifici: l'eterogeneità dei token dovuta all'accoppiamento multimodale e alla variazione spaziale, e le dinamiche temporali non uniformi in cui un piccolo insieme di token difficili guida la crescita dell'errore, rendendo lo skipping uniforme instabile o eccessivamente conservativo. Proponiamo WorldCache, un framework di caching specifico per i modelli del mondo a diffusione. Introduciamo la Predizione Eterogenea dei Token Guidata dalla Curvatura, che utilizza un punteggio di curvatura basato sulla fisica per stimare la prevedibilità dei token e applica un predatore smorzato guidato da Hermite per i token caotici con cambiamenti di direzione improvvisi. Progettiamo inoltre uno Skipping Adattivo Prioritizzato sul Caotico, che accumula un segnale di deriva adimensionale normalizzato per la curvatura e ricalcola solo quando i token collo di bottiglia iniziano a divergere. Esperimenti su modelli del mondo a diffusione mostrano che WorldCache fornisce accelerazioni end-to-end fino a 3,7 volte mantenendo il 98% della qualità del rollout, dimostrando i notevoli vantaggi e la praticità di WorldCache in scenari con risorse limitate. Il nostro codice è rilasciato su https://github.com/FofGofx/WorldCache.
English
Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: token heterogeneity from multi-modal coupling and spatial variation, and non-uniform temporal dynamics where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose WorldCache, a caching framework tailored to diffusion world models. We introduce Curvature-guided Heterogeneous Token Prediction, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design Chaotic-prioritized Adaptive Skipping, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to 3.7times end-to-end speedups while maintaining 98\% rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.