Взаимодействие света: ускорение инференса без обучения для интерактивных видеомировых моделей

Аннотация

Интерактивные видеомировые модели генерируют видео фрагментами в ответ на управляемые пользователем движения камеры, что открывает такие приложения, как симуляция игр в реальном времени, навигация в виртуальных сценах и обучение воплощенного ИИ. Однако масштабирование до длинных интерактивных траекторий становится чрезвычайно затратным из-за растущей контекстной памяти, квадратичной сложности внимания и повторяющихся шагов шумоподавления. Мы представляем Light Interaction — фреймворк для ускорения инференса интерактивных видеомировых моделей без дополнительного обучения. Наше ключевое наблюдение состоит в том, что взаимодействие естественным образом допускает адаптивные вычисления, зависящие от траектории: извлеченная пространственная память может быть отброшена при исследовании новых областей, временной контекст может быть скорректирован в соответствии с локальной латентной динамикой, а выходы модели на ранних шагах могут быть повторно использованы, когда камера возвращается в знакомые области. Основываясь на этом наблюдении, Light Interaction объединяет адаптивное управление контекстом, ускорение с помощью кэширования шумоподавления и аппаратно-программное совместное проектирование трехмерного блочно-разреженного внимания с объединенными ядрами Triton. В оценке на HY-WorldPlay и Matrix-Game-3.0 Light Interaction достигает ускорения до 2.59x без дообучения модели, сохраняя при этом конкурентоспособное качество изображения.

English

Interactive video world models generate video chunk by chunk in response to user-controlled camera movements, enabling applications such as real-time game simulation, virtual scene navigation, and embodied AI training. However, scaling to long interactive trajectories is prohibitively expensive due to growing context memory, quadratic attention complexity, and repeated denoising steps. We present Light Interaction, a training-free inference acceleration framework for interactive video world models. Our key insight is that interaction naturally enables trajectory-dependent adaptive computation: retrieved spatial memory can be discarded during novel exploration, temporal context can be adjusted according to local latent dynamics, and early-step model outputs can be reused when the camera revisits familiar regions. Based on this insight, Light Interaction combines adaptive context management, denoising cache acceleration, and hardware-software co-designed 3D block sparse attention with fused Triton kernels. Evaluated on HY-WorldPlay and Matrix-Game-3.0, Light Interaction achieves up to 2.59x speedup without model retraining while maintaining competitive visual quality.