Interação Leve: Aceleração de Inferência Sem Treinamento para Modelos de Mundo de Vídeo Interativos

Resumo

Modelos de mundo de vídeo interativos geram vídeo pedaço por pedaço em resposta a movimentos de câmera controlados pelo usuário, permitindo aplicações como simulação de jogos em tempo real, navegação em cenas virtuais e treinamento de IA incorporada. No entanto, escalar para longas trajetórias interativas é proibitivamente caro devido ao crescimento da memória de contexto, à complexidade quadrática da atenção e às repetidas etapas de remoção de ruído. Apresentamos o Light Interaction, uma estrutura de aceleração de inferência sem treinamento para modelos de mundo de vídeo interativos. Nossa principal percepção é que a interação naturalmente possibilita computação adaptativa dependente da trajetória: a memória espacial recuperada pode ser descartada durante a exploração de novos ambientes, o contexto temporal pode ser ajustado de acordo com a dinâmica latente local, e as saídas do modelo em etapas iniciais podem ser reutilizadas quando a câmera revisita regiões familiares. Com base nessa percepção, o Light Interaction combina gerenciamento adaptativo de contexto, aceleração de cache de remoção de ruído e atenção esparsa em blocos 3D co-projetada hardware-software com kernels Triton fundidos. Avaliado no HY-WorldPlay e no Matrix-Game-3.0, o Light Interaction alcança até 2,59x de aceleração sem retreinamento do modelo, mantendo qualidade visual competitiva.

English

Interactive video world models generate video chunk by chunk in response to user-controlled camera movements, enabling applications such as real-time game simulation, virtual scene navigation, and embodied AI training. However, scaling to long interactive trajectories is prohibitively expensive due to growing context memory, quadratic attention complexity, and repeated denoising steps. We present Light Interaction, a training-free inference acceleration framework for interactive video world models. Our key insight is that interaction naturally enables trajectory-dependent adaptive computation: retrieved spatial memory can be discarded during novel exploration, temporal context can be adjusted according to local latent dynamics, and early-step model outputs can be reused when the camera revisits familiar regions. Based on this insight, Light Interaction combines adaptive context management, denoising cache acceleration, and hardware-software co-designed 3D block sparse attention with fused Triton kernels. Evaluated on HY-WorldPlay and Matrix-Game-3.0, Light Interaction achieves up to 2.59x speedup without model retraining while maintaining competitive visual quality.