WorldCache: Бесплатное ускорение мировых моделей с помощью гетерогенного кэширования токенов
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching
March 6, 2026
Авторы: Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu
cs.AI
Аннотация
Диффузионные модели мира продемонстрировали значительный потенциал для унифицированного моделирования мира, однако итеративное шумоподаление остается слишком затратным для интерактивного использования и долгосрочных прогонов. Хотя кэширование признаков может ускорить вывод без обучения, мы обнаруживаем, что политики, разработанные для однокомпонентной диффузии, плохо переносятся на модели мира из-за двух специфичных для них препятствий: гетерогенности токенов, вызванной многокомпонентной связью и пространственной вариативностью, и неравномерной временной динамики, при которой небольшой набор сложных токенов обуславливает рост ошибки, что делает равномерное пропускание либо нестабильным, либо излишне консервативным. Мы предлагаем WorldCache — фреймворк кэширования, адаптированный для диффузионных моделей мира. Мы представляем прогнозирование гетерогенных токенов на основе кривизны, которое использует основанную на физике оценку кривизны для предсказания предсказуемости токенов и применяет демпфированный прогнозирующий метод с использованием полиномов Эрмита для хаотичных токенов с резкими изменениями направления. Мы также разрабатываем адаптивное пропускание с приоритизацией хаотичных токенов, которое аккумулирует безразмерный сигнал дрейфа, нормированный по кривизне, и пересчитывает токены только тогда, когда ключевые токены начинают дрейфовать. Эксперименты на диффузионных моделях мира показывают, что WorldCache обеспечивает до 3.7-кратного ускорения сквозного процесса при сохранении 98% качества прогонов, демонстрируя значительные преимущества и практическую применимость WorldCache в сценариях с ограниченными ресурсами. Наш код доступен по адресу https://github.com/FofGofx/WorldCache.
English
Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: token heterogeneity from multi-modal coupling and spatial variation, and non-uniform temporal dynamics where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose WorldCache, a caching framework tailored to diffusion world models. We introduce Curvature-guided Heterogeneous Token Prediction, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design Chaotic-prioritized Adaptive Skipping, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to 3.7times end-to-end speedups while maintaining 98\% rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.