WorldCache: 이종 토큰 캐싱을 통한 무료 월드 모델 가속화
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching
March 6, 2026
저자: Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu
cs.AI
초록
확산 기반 세계 모델은 통합 세계 시뮬레이션 측면에서 강력한 잠재력을 보여왔지만, 반복적인 노이즈 제거 과정은 상호작용형 사용 및 장기 롤아웃에 여전히 너무 많은 비용이 든다. 특징 캐싱은 학습 없이 추론을 가속화할 수 있지만, 단일 모달리티 확산을 위해 설계된 정책은 두 가지 세계 모델 특유의 장애물로 인해 세계 모델로의 전이가 원활하지 않음을 발견했다. 첫째, 다중 모달리티 결합 및 공간적 변동으로 인한 토큰 이질성과 둘째, 소수의 어려운 토큰들이 오류 증가를 주도하는 불균일한 시간적 역학으로, 균일한 스킵이 불안정하거나 지나치게 보수적으로 만드는 문제다. 우리는 확산 세계 모델에 맞춤화된 캐싱 프레임워크인 WorldCache를 제안한다. 우리는 물리학 기반의 곡률 점수를 사용하여 토큰 예측 가능성을 추정하고, 갑작스러운 방향 변화를 보이는 혼돈 토큰에는 Hermite 기반 감쇠 예측기를 적용하는 곡률 기반 이질적 토큰 예측을 도입한다. 또한, 곡률로 정규화된 무차원 드리프트 신호를 누적하고 병목 토큰이 드리프트하기 시작할 때만 재계산하는 혼돈 우선 순위 적응형 스킵을 설계한다. 확산 세계 모델에 대한 실험 결과, WorldCache는 롤아웃 품질의 98%를 유지하면서 최대 3.7배의 종단 간 속도 향상을 제공하여, 자원이 제한된 시나리오에서 WorldCache의 막대한 이점과 실용성을 입증했다. 우리의 코드는 https://github.com/FofGofx/WorldCache 에 공개되어 있다.
English
Diffusion-based world models have shown strong potential for unified world simulation, but the iterative denoising remains too costly for interactive use and long-horizon rollouts. While feature caching can accelerate inference without training, we find that policies designed for single-modal diffusion transfer poorly to world models due to two world-model-specific obstacles: token heterogeneity from multi-modal coupling and spatial variation, and non-uniform temporal dynamics where a small set of hard tokens drives error growth, making uniform skipping either unstable or overly conservative. We propose WorldCache, a caching framework tailored to diffusion world models. We introduce Curvature-guided Heterogeneous Token Prediction, which uses a physics-grounded curvature score to estimate token predictability and applies a Hermite-guided damped predictor for chaotic tokens with abrupt direction changes. We also design Chaotic-prioritized Adaptive Skipping, which accumulates a curvature-normalized, dimensionless drift signal and recomputes only when bottleneck tokens begin to drift. Experiments on diffusion world models show that WorldCache delivers up to 3.7times end-to-end speedups while maintaining 98\% rollout quality, demonstrating the vast advantages and practicality of WorldCache in resource-constrained scenarios. Our code is released in https://github.com/FofGofx/WorldCache.