Leichte Interaktion: Trainingsfreie Inferenzbeschleunigung für interaktive Video-Weltmodelle

Zusammenfassung

Interaktive Videoweltmodelle generieren Videoabschnitt für Videoabschnitt als Reaktion auf benutzergesteuerte Kamerabewegungen und ermöglichen so Anwendungen wie Echtzeit-Gamesimulationen, virtuelle Szenennavigation und verkörperte KI-Trainings. Allerdings ist die Skalierung auf lange interaktive Trajektorien aufgrund des wachsenden Kontextspeichers, der quadratischen Aufmerksamkeitskomplexität und wiederholter Denoising-Schritte unerschwinglich teuer. Wir stellen Light Interaction vor, ein trainingsfreies Inferenzbeschleunigungs-Framework für interaktive Videoweltmodelle. Unser zentraler Einblick ist, dass Interaktion natürlicherweise eine trajektorienabhängige adaptive Berechnung ermöglicht: Abgerufener räumlicher Speicher kann bei neuer Erkundung verworfen werden, zeitlicher Kontext kann gemäß lokaler latenter Dynamik angepasst werden, und Modellausgaben früherer Schritte können wiederverwendet werden, wenn die Kamera bekannte Regionen erneut besucht. Basierend auf dieser Erkenntnis kombiniert Light Interaction adaptives Kontextmanagement, Denoising-Cache-Beschleunigung und hardware-software-codesignierte 3D-Block-Sparse-Attention mit fusionierten Triton-Kernels. Bewertet auf HY-WorldPlay und Matrix-Game-3.0 erreicht Light Interaction eine bis zu 2,59-fache Beschleunigung ohne Modell-Neutraining bei gleichbleibend wettbewerbsfähiger visueller Qualität.

English

Interactive video world models generate video chunk by chunk in response to user-controlled camera movements, enabling applications such as real-time game simulation, virtual scene navigation, and embodied AI training. However, scaling to long interactive trajectories is prohibitively expensive due to growing context memory, quadratic attention complexity, and repeated denoising steps. We present Light Interaction, a training-free inference acceleration framework for interactive video world models. Our key insight is that interaction naturally enables trajectory-dependent adaptive computation: retrieved spatial memory can be discarded during novel exploration, temporal context can be adjusted according to local latent dynamics, and early-step model outputs can be reused when the camera revisits familiar regions. Based on this insight, Light Interaction combines adaptive context management, denoising cache acceleration, and hardware-software co-designed 3D block sparse attention with fused Triton kernels. Evaluated on HY-WorldPlay and Matrix-Game-3.0, Light Interaction achieves up to 2.59x speedup without model retraining while maintaining competitive visual quality.