WorldCache: ヘテロジニアストークンキャッシングによる無償の世界モデル高速化
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching
March 6, 2026
著者: Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu
cs.AI
要旨
拡散モデルに基づく世界モデルは、統一的な世界シミュレーションとして強力な可能性を示しているが、反復的なノイズ除去は、対話的な利用や長期的なロールアウトにおいて依然としてコストが高すぎる。特徴量キャッシュは学習なしで推論を高速化できるが、単一モーダルの拡散モデル用に設計されたポリシーは、世界モデル特有の2つの課題により、世界モデルへはうまく移行できないことがわかった。すなわち、マルチモーダル結合と空間的変動に起因するトークンの不均質性と、ごく少数の困難なトークンが誤差の増大を駆動する非一様な時間的ダイナミクスである。これらにより、均一なスキップは不安定になるか、過度に保守的になる。本研究では、拡散世界モデルに特化したキャッシュフレームワーク「WorldCache」を提案する。我々は、物理に基づいた曲率スコアを用いてトークンの予測可能性を推定し、急激な方向変化を示すカオス的なトークンに対してはエルミート補間による減衰予測子を適用する「曲率誘導型不均質トークン予測」を導入する。さらに、曲率で正規化された無次元のドリフト信号を蓄積し、ボトルネックとなるトークンがドリフトし始めたときのみ再計算を行う「カオス優先適応的スキップ」を設計する。拡散世界モデルを用いた実験により、WorldCacheはロールアウト品質を98%維持しながら、エンドツーエンドの速度を最大3.7倍まで向上させ、リソースが制約されるシナリオにおけるWorldCacheの大きな優位性と実用性を実証した。コードはhttps://github.com/FofGofx/WorldCacheで公開されている。
English
Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: token heterogeneity from multi-modal coupling and spatial variation, and non-uniform temporal dynamics where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose WorldCache, a caching framework tailored to diffusion world models. We introduce Curvature-guided Heterogeneous Token Prediction, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design Chaotic-prioritized Adaptive Skipping, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to 3.7times end-to-end speedups while maintaining 98\% rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.