WorldCache: Kostenlose Beschleunigung von Weltmodellen durch heterogenes Token-Caching

Zusammenfassung

Diffusionsbasierte Weltmodelle haben ein großes Potenzial für die einheitliche Weltsimulation gezeigt, doch das iterative Entrauschen bleibt für interaktive Nutzung und langfristige Rollouts zu rechenintensiv. Obwohl Feature-Caching den Inferenzvorgang ohne Training beschleunigen kann, stellen wir fest, dass sich für unimodale Diffusion konzipierte Strategien aufgrund zweier modellspezifischer Hindernisse nur schlecht auf Weltmodelle übertragen lassen: Token-Heterogenität durch multimodale Kopplung und räumliche Variation sowie nicht-uniforme zeitliche Dynamiken, bei denen eine kleine Menge schwieriger Token das Fehlerwachstum vorantreibt, was gleichmäßiges Überspringen entweder instabil oder zu konservativ macht. Wir schlagen WorldCache vor, ein Caching-Framework, das speziell für Diffusions-Weltmodelle entwickelt wurde. Wir führen eine krümmungsgeführte, heterogene Token-Vorhersage ein, die einen physikalisch fundierten Krümmungswert nutzt, um die Vorhersagbarkeit von Token abzuschätzen, und für chaotische Token mit abrupten Richtungsänderungen einen Hermite-geführten, gedämpften Prädiktor anwendet. Zudem entwerfen wir ein chaotikuspriorisiertes, adaptives Überspringen, das ein krümmungsnormalisiertes, dimensionsloses Driftsignal akkumuliert und Neuberechnungen nur dann vornimmt, wenn Engpass-Token zu driften beginnen. Experimente mit Diffusions-Weltmodellen zeigen, dass WorldCache eine bis zu 3,7-fache Beschleunigung der End-to-End-Laufzeit bei gleichzeitiger Beibehaltung von 98 % der Rollout-Qualität erreicht, was die erheblichen Vorteile und die Praxistauglichkeit von WorldCache in ressourcenbeschränkten Szenarien demonstriert. Unser Code ist unter https://github.com/FofGofx/WorldCache veröffentlicht.

English

Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: token heterogeneity from multi-modal coupling and spatial variation, and non-uniform temporal dynamics where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose WorldCache, a caching framework tailored to diffusion world models. We introduce Curvature-guided Heterogeneous Token Prediction, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design Chaotic-prioritized Adaptive Skipping, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to 3.7times end-to-end speedups while maintaining 98\% rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.

WorldCache: Kostenlose Beschleunigung von Weltmodellen durch heterogenes Token-Caching

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Zusammenfassung

Support