Interaction légère : Accélération de l'inférence sans entraînement pour les modèles de monde vidéo interactifs

Résumé

Les modèles de monde vidéo interactifs génèrent des segments vidéo successifs en réponse aux mouvements de caméra contrôlés par l'utilisateur, permettant des applications telles que la simulation de jeu en temps réel, la navigation dans des scènes virtuelles et l'entraînement de l'IA incarnée. Cependant, le passage à l'échelle vers de longues trajectoires interactives est prohibitivement coûteux en raison de la mémoire de contexte croissante, de la complexité d'attention quadratique et des étapes de débruitage répétées. Nous présentons Light Interaction, un cadre d'accélération d'inférence sans entraînement pour les modèles de monde vidéo interactifs. Notre idée clé est que l'interaction permet naturellement un calcul adaptatif dépendant de la trajectoire : la mémoire spatiale récupérée peut être abandonnée lors de nouvelles explorations, le contexte temporel peut être ajusté en fonction des dynamiques latentes locales, et les sorties du modèle aux premières étapes peuvent être réutilisées lorsque la caméra revisite des régions familières. Sur la base de cette idée, Light Interaction combine une gestion adaptative du contexte, une accélération du cache de débruitage, et une attention creuse par blocs 3D co-conçue matériel-logiciel avec des noyaux Triton fusionnés. Évalué sur HY-WorldPlay et Matrix-Game-3.0, Light Interaction atteint une accélération jusqu'à 2,59 fois sans réentraînement du modèle, tout en maintenant une qualité visuelle compétitive.

English

Interactive video world models generate video chunk by chunk in response to user-controlled camera movements, enabling applications such as real-time game simulation, virtual scene navigation, and embodied AI training. However, scaling to long interactive trajectories is prohibitively expensive due to growing context memory, quadratic attention complexity, and repeated denoising steps. We present Light Interaction, a training-free inference acceleration framework for interactive video world models. Our key insight is that interaction naturally enables trajectory-dependent adaptive computation: retrieved spatial memory can be discarded during novel exploration, temporal context can be adjusted according to local latent dynamics, and early-step model outputs can be reused when the camera revisits familiar regions. Based on this insight, Light Interaction combines adaptive context management, denoising cache acceleration, and hardware-software co-designed 3D block sparse attention with fused Triton kernels. Evaluated on HY-WorldPlay and Matrix-Game-3.0, Light Interaction achieves up to 2.59x speedup without model retraining while maintaining competitive visual quality.