WorldCache : Mise en cache adaptative au contenu pour l'accélération des modèles vidéo du monde

Résumé

Les Transformers de Diffusion (DiTs) alimentent des modèles de monde vidéo haute fidélité mais restent informatiquement coûteux en raison du débruîtage séquentiel et de l'attention spatio-temporelle onéreuse. La mise en cache de caractéristiques sans entraînement accélère l'inférence en réutilisant les activations intermédiaires entre les étapes de débruîtage ; cependant, les méthodes existantes reposent largement sur une hypothèse de maintien d'ordre zéro, c'est-à-dire la réutilisation des caractéristiques mises en cache comme des instantanés statiques lorsque la dérive globale est faible. Cela entraîne souvent des artéfacts de fantôme, du flou et des incohérences de mouvement dans les scènes dynamiques. Nous proposons WorldCache, un cadre de mise en cache dynamique à contrainte perceptuelle qui améliore à la fois quand et comment réutiliser les caractéristiques. WorldCache introduit des seuils adaptatifs au mouvement, une estimation de la dérive pondérée par la saillance, une approximation optimale via le mélange et le warp, et une planification de seuil sensible à la phase entre les étapes de diffusion. Notre approche cohésive permet une réutilisation adaptive et cohérente des caractéristiques sans réentraînement. Sur Cosmos-Predict2.5-2B évalué avec PAI-Bench, WorldCache atteint une accélération d'inférence de 2,3 fois tout en préservant 99,4 % de la qualité de référence, surpassant substantiellement les approches de mise en cache sans entraînement antérieures. Notre code est accessible sur https://umair1221.github.io/World-Cache/{World-Cache}.

English

Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose WorldCache, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves 2.3times inference speedup while preserving 99.4\% of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on https://umair1221.github.io/World-Cache/{World-Cache}.

WorldCache : Mise en cache adaptative au contenu pour l'accélération des modèles vidéo du monde

WorldCache: Content-Aware Caching for Accelerated Video World Models

Résumé

Support