Lichte Interactie: trainingsvrije inferentieversnelling voor interactieve videowereldmodellen

Samenvatting

Interactieve videowereldmodellen genereren video's brok voor brok als reactie op door de gebruiker gestuurde camerabewegingen, wat toepassingen mogelijk maakt zoals real-time gamesimulatie, virtuele scènenavigatie en embodied AI-training. Het opschalen naar lange interactieve trajecten is echter prohibitief duur vanwege het groeiende contextgeheugen, de kwadratische aandachtscomplexiteit en herhaalde ontruisingsstappen. We presenteren Light Interaction, een trainingsvrij inferentieversnellingsraamwerk voor interactieve videowereldmodellen. Ons belangrijkste inzicht is dat interactie van nature trajectafhankelijke adaptieve berekening mogelijk maakt: opgehaald ruimtelijk geheugen kan worden weggegooid tijdens nieuwe verkenning, tijdelijke context kan worden aangepast aan lokale latente dynamiek, en modeluitvoer van vroege stappen kan worden hergebruikt wanneer de camera bekende gebieden opnieuw bezoekt. Op basis van dit inzicht combineert Light Interaction adaptief contextbeheer, ontruisingscacheversnelling en hardware-software co-ontworpen 3D-blokspaarzame aandacht met gefuseerde Triton-kernels. Geëvalueerd op HY-WorldPlay en Matrix-Game-3.0 bereikt Light Interaction tot 2,59x versnelling zonder modelhertraining, terwijl het concurrerende visuele kwaliteit behoudt.

English

Interactive video world models generate video chunk by chunk in response to user-controlled camera movements, enabling applications such as real-time game simulation, virtual scene navigation, and embodied AI training. However, scaling to long interactive trajectories is prohibitively expensive due to growing context memory, quadratic attention complexity, and repeated denoising steps. We present Light Interaction, a training-free inference acceleration framework for interactive video world models. Our key insight is that interaction naturally enables trajectory-dependent adaptive computation: retrieved spatial memory can be discarded during novel exploration, temporal context can be adjusted according to local latent dynamics, and early-step model outputs can be reused when the camera revisits familiar regions. Based on this insight, Light Interaction combines adaptive context management, denoising cache acceleration, and hardware-software co-designed 3D block sparse attention with fused Triton kernels. Evaluated on HY-WorldPlay and Matrix-Game-3.0, Light Interaction achieves up to 2.59x speedup without model retraining while maintaining competitive visual quality.