WorldCache: Контентно-ориентированное кэширование для ускорения видео-мировых моделей

Аннотация

Диффузионные трансформаторы (DiT) являются основой высококачественных видеомировых моделей, но остаются вычислительно дорогими из-за последовательного шумоподавления и затратной пространственно-временной внимательности. Бесплатное для обучения кэширование признаков ускоряет вывод за счет повторного использования промежуточных активаций на шагах денойзинга; однако существующие методы в значительной степени опираются на предположение о нулевом порядке удержания, т.е. повторно используют кэшированные признаки как статические снимки, когда глобальный дрейф невелик. Это часто приводит к артефактам ореола, размытию и несогласованности движения в динамических сценах. Мы предлагаем WorldCache, фреймворк динамического кэширования с перцепционными ограничениями, который улучшает как момент, так и способ повторного использования признаков. WorldCache вводит адаптивные к движению пороги, оценку дрейфа с учетом значимости, оптимальную аппроксимацию посредством смешивания и деформации, а также фазозависимое планирование порогов на шагах диффузии. Наш целостный подход позволяет осуществлять адаптивное, согласованное с движением повторное использование признаков без переобучения. На модели Cosmos-Predict2.5-2B, протестированной на PAI-Bench, WorldCache достигает ускорения вывода в 2.3 раза при сохранении 99.4% качества базового уровня, существенно превосходя предыдущие бесплатные для обучения методы кэширования. Наш код доступен по адресу https://umair1221.github.io/World-Cache/{World-Cache}.

English

Diffusion Transformers (DiTs) power high-fidelity video world models but remain computationally expensive due to sequential denoising and costly spatio-temporal attention. Training-free feature caching accelerates inference by reusing intermediate activations across denoising steps; however, existing methods largely rely on a Zero-Order Hold assumption i.e., reusing cached features as static snapshots when global drift is small. This often leads to ghosting artifacts, blur, and motion inconsistencies in dynamic scenes. We propose WorldCache, a Perception-Constrained Dynamical Caching framework that improves both when and how to reuse features. WorldCache introduces motion-adaptive thresholds, saliency-weighted drift estimation, optimal approximation via blending and warping, and phase-aware threshold scheduling across diffusion steps. Our cohesive approach enables adaptive, motion-consistent feature reuse without retraining. On Cosmos-Predict2.5-2B evaluated on PAI-Bench, WorldCache achieves 2.3times inference speedup while preserving 99.4\% of baseline quality, substantially outperforming prior training-free caching approaches. Our code can be accessed on https://umair1221.github.io/World-Cache/{World-Cache}.

WorldCache: Контентно-ориентированное кэширование для ускорения видео-мировых моделей

WorldCache: Content-Aware Caching for Accelerated Video World Models

Аннотация

Support