Interacción Ligera: Aceleración de Inferencia Sin Entrenamiento para Modelos de Mundos de Video Interactivos

Resumen

Los modelos de mundo interactivos por video generan video en fragmentos en respuesta a movimientos de cámara controlados por el usuario, permitiendo aplicaciones como simulación de juegos en tiempo real, navegación de escenas virtuales y entrenamiento de IA encarnada. Sin embargo, escalar a trayectorias interactivas largas resulta prohibitivamente costoso debido al crecimiento de la memoria de contexto, la complejidad cuadrática de la atención y los pasos repetidos de eliminación de ruido. Presentamos Light Interaction, un marco de aceleración de inferencia sin reentrenamiento para modelos de mundo interactivos por video. Nuestra idea clave es que la interacción permite naturalmente un cómputo adaptativo dependiente de la trayectoria: la memoria espacial recuperada puede descartarse durante la exploración nueva, el contexto temporal puede ajustarse según la dinámica latente local, y las salidas del modelo en pasos tempranos pueden reutilizarse cuando la cámara visita regiones familiares. Basado en esta idea, Light Interaction combina gestión adaptativa de contexto, aceleración de caché de eliminación de ruido y atención dispersa de bloques 3D codiseñada hardware-software con núcleos Triton fusionados. Evaluado en HY-WorldPlay y Matrix-Game-3.0, Light Interaction logra una aceleración de hasta 2.59x sin reentrenar el modelo, manteniendo una calidad visual competitiva.

English

Interactive video world models generate video chunk by chunk in response to user-controlled camera movements, enabling applications such as real-time game simulation, virtual scene navigation, and embodied AI training. However, scaling to long interactive trajectories is prohibitively expensive due to growing context memory, quadratic attention complexity, and repeated denoising steps. We present Light Interaction, a training-free inference acceleration framework for interactive video world models. Our key insight is that interaction naturally enables trajectory-dependent adaptive computation: retrieved spatial memory can be discarded during novel exploration, temporal context can be adjusted according to local latent dynamics, and early-step model outputs can be reused when the camera revisits familiar regions. Based on this insight, Light Interaction combines adaptive context management, denoising cache acceleration, and hardware-software co-designed 3D block sparse attention with fused Triton kernels. Evaluated on HY-WorldPlay and Matrix-Game-3.0, Light Interaction achieves up to 2.59x speedup without model retraining while maintaining competitive visual quality.