MultiGen: Niveau-ontwerp voor bewerkbare multiplayer-werelden in diffusion-game-engines
MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines
March 30, 2026
Auteurs: Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz
cs.AI
Samenvatting
Videowereldmodellen hebben een enorm potentieel getoond voor interactieve simulatie en entertainment, maar huidige systemen worstelen nog steeds met twee belangrijke aspecten van interactiviteit: gebruikerscontrole over de omgeving voor reproduceerbare, bewerkbare ervaringen, en gedeelde inferentie waarbij spelers invloed uitoefenen op een gemeenschappelijke wereld. Om deze beperkingen aan te pakken, introduceren we een expliciet extern geheugen in het systeem, een persistente toestand die onafhankelijk opereert van de contextvenster van het model, en die continu wordt bijgewerkt door gebruikersacties en wordt geraadpleegd gedurende de generatieroll-out. In tegenstelling tot conventionele diffusie-game-engines die functioneren als volgende-frame-voorspellers, ontleedt onze aanpak de generatie in Geheugen-, Observatie- en Dynamiekmodules. Dit ontwerp geeft gebruikers directe, bewerkbare controle over de omgevingsstructuur via een bewerkbare geheugenrepresentatie, en het breidt zich natuurlijk uit naar real-time multiplayer roll-outs met coherente gezichtspunten en consistente kruis-spelerinteracties.
English
Video world models have shown immense promise for interactive simulation and entertainment, but current systems still struggle with two important aspects of interactivity: user control over the environment for reproducible, editable experiences, and shared inference where players hold influence over a common world. To address these limitations, we introduce an explicit external memory into the system, a persistent state operating independent of the model's context window, that is continually updated by user actions and queried throughout the generation roll-out. Unlike conventional diffusion game engines that operate as next-frame predictors, our approach decomposes generation into Memory, Observation, and Dynamics modules. This design gives users direct, editable control over environment structure via an editable memory representation, and it naturally extends to real-time multiplayer rollouts with coherent viewpoints and consistent cross-player interactions.