WorldCache: Inhaltsbasiertes Caching zur Beschleunigung von Video-World-Modellen

Zusammenfassung

Diffusion Transformers (DiTs) ermöglichen hochauflösende Video-Weltmodelle, bleiben jedoch aufgrund sequenzieller Entrauschung und rechenintensiver raumzeitlicher Aufmerksamkeit rechenaufwendig. Trainingsfreie Feature-Zwischenspeicherung beschleunigt die Inferenz durch Wiederverwendung von Zwischenaktivierungen über Entrauschungsschritte hinweg; bestehende Methoden stützen sich jedoch weitgehend auf eine Nullter-Ordnung-Halte-Annahme, d.h. die Wiederverwendung zwischengespeicherter Features als statische Momentaufnahmen bei geringer globaler Drift. Dies führt häufig zu Geisterartefakten, Unschärfe und Bewegungsinkonsistenzen in dynamischen Szenen. Wir schlagen WorldCache vor, ein wahrnehmungsbeschränktes dynamisches Zwischenspeicherungsframework, das sowohl verbessert, wann als auch wie Features wiederverwendet werden. WorldCache führt bewegungsadaptive Schwellenwerte, salienzgewichtete Driftschätzung, optimale Approximation durch Blending und Warping sowie phasenbewusste Schwellenwertplanung über Diffusionsschritte hinweg ein. Unser kohäsiver Ansatz ermöglicht eine adaptive, bewegungskonsistente Wiederverwendung von Features ohne Neu-Training. Auf Cosmos-Predict2.5-2B, evaluiert auf PAI-Bench, erreicht WorldCache eine 2,3-fache Beschleunigung der Inferenz bei gleichzeitiger Beibehaltung von 99,4 % der Baseline-Qualität und übertrifft damit bisherige trainingsfreie Zwischenspeicherungsansätze erheblich. Unser Code ist unter https://umair1221.github.io/World-Cache/ verfügbar.

English

Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose WorldCache, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves 2.3times inference speedup while preserving 99.4\% of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on https://umair1221.github.io/World-Cache/{World-Cache}.

WorldCache: Inhaltsbasiertes Caching zur Beschleunigung von Video-World-Modellen

WorldCache: Content-Aware Caching for Accelerated Video World Models

Zusammenfassung

Support