ChatPaper.aiChatPaper

WorldCache: Kostenlose Beschleunigung von Weltmodellen durch heterogenes Token-Caching

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

March 6, 2026
Autoren: Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu
cs.AI

Zusammenfassung

Diffusionsbasierte Weltmodelle haben ein großes Potenzial für die einheitliche Weltsimulation gezeigt, doch das iterative Entrauschen bleibt für interaktive Nutzung und langfristige Rollouts zu rechenintensiv. Obwohl Feature-Caching den Inferenzvorgang ohne Training beschleunigen kann, stellen wir fest, dass sich für unimodale Diffusion konzipierte Strategien aufgrund zweier modellspezifischer Hindernisse nur schlecht auf Weltmodelle übertragen lassen: Token-Heterogenität durch multimodale Kopplung und räumliche Variation sowie nicht-uniforme zeitliche Dynamiken, bei denen eine kleine Menge schwieriger Token das Fehlerwachstum vorantreibt, was gleichmäßiges Überspringen entweder instabil oder zu konservativ macht. Wir schlagen WorldCache vor, ein Caching-Framework, das speziell für Diffusions-Weltmodelle entwickelt wurde. Wir führen eine krümmungsgeführte, heterogene Token-Vorhersage ein, die einen physikalisch fundierten Krümmungswert nutzt, um die Vorhersagbarkeit von Token abzuschätzen, und für chaotische Token mit abrupten Richtungsänderungen einen Hermite-geführten, gedämpften Prädiktor anwendet. Zudem entwerfen wir ein chaotikuspriorisiertes, adaptives Überspringen, das ein krümmungsnormalisiertes, dimensionsloses Driftsignal akkumuliert und Neuberechnungen nur dann vornimmt, wenn Engpass-Token zu driften beginnen. Experimente mit Diffusions-Weltmodellen zeigen, dass WorldCache eine bis zu 3,7-fache Beschleunigung der End-to-End-Laufzeit bei gleichzeitiger Beibehaltung von 98 % der Rollout-Qualität erreicht, was die erheblichen Vorteile und die Praxistauglichkeit von WorldCache in ressourcenbeschränkten Szenarien demonstriert. Unser Code ist unter https://github.com/FofGofx/WorldCache veröffentlicht.
English
Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: token heterogeneity from multi-modal coupling and spatial variation, and non-uniform temporal dynamics where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose WorldCache, a caching framework tailored to diffusion world models. We introduce Curvature-guided Heterogeneous Token Prediction, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design Chaotic-prioritized Adaptive Skipping, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to 3.7times end-to-end speedups while maintaining 98\% rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.
PDF33May 8, 2026