WorldCache: Cache com Consciência de Conteúdo para Acelerar Modelos de Mundo de Vídeo

Resumo

Os Diffusion Transformers (DiTs) impulsionam modelos de mundo em vídeo de alta fidelidade, mas permanecem computacionalmente dispendiosos devido à eliminação de ruído sequencial e à custosa atenção espaço-temporal. O cache de características *training-free* acelera a inferência ao reutilizar ativações intermediárias entre as etapas de eliminação de ruído; no entanto, os métodos existentes dependem amplamente de uma suposição de Manutenção de Ordem Zero, ou seja, reutilizam características em cache como instantâneos estáticos quando o desvio global é pequeno. Isso frequentemente resulta em artefatos de *ghosting*, desfoque e inconsistências de movimento em cenas dinâmicas. Propomos o WorldCache, uma estrutura de Cache Dinâmico com Restrição de Percepção que melhora tanto *quando* quanto *como* reutilizar características. O WorldCache introduz limites adaptativos de movimento, estimativa de desvio ponderada por saliência, aproximação ótima via *blending* e *warping*, e agendamento de limites consciente da fase entre as etapas de difusão. Nossa abordagem coesa permite a reutilização adaptativa e consistente de características sem necessidade de retreinamento. No Cosmos-Predict2.5-2B avaliado no PAI-Bench, o WorldCache alcança uma aceleração de inferência de 2,3 vezes, preservando 99,4% da qualidade da linha de base, superando substancialmente as abordagens de cache *training-free* anteriores. Nosso código pode ser acessado em https://umair1221.github.io/World-Cache/{World-Cache}.

English

Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose WorldCache, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves 2.3times inference speedup while preserving 99.4\% of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on https://umair1221.github.io/World-Cache/{World-Cache}.

WorldCache: Cache com Consciência de Conteúdo para Acelerar Modelos de Mundo de Vídeo

WorldCache: Content-Aware Caching for Accelerated Video World Models

Resumo

Support