MultiGen: Diseño de Niveles para Mundos Multijugador Editables en Motores de Juego con Difusión
MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines
March 30, 2026
Autores: Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz
cs.AI
Resumen
Los modelos de video del mundo han demostrado un inmenso potencial para la simulación interactiva y el entretenimiento, pero los sistemas actuales aún luchan con dos aspectos importantes de la interactividad: el control del usuario sobre el entorno para experiencias reproducibles y editables, y la inferencia compartida donde los jugadores ejercen influencia sobre un mundo común. Para abordar estas limitaciones, introducimos una memoria externa explícita en el sistema, un estado persistente que opera independientemente de la ventana de contexto del modelo, que se actualiza continuamente mediante las acciones del usuario y se consulta durante todo el desarrollo de la generación. A diferencia de los motores de juego de difusión convencionales que funcionan como predictores del siguiente fotograma, nuestro enfoque descompone la generación en módulos de Memoria, Observación y Dinámica. Este diseño otorga a los usuarios control directo y editable sobre la estructura del entorno mediante una representación de memoria editable, y se extiende naturalmente a desarrollos en tiempo real multijugador con puntos de vista coherentes e interacciones consistentes entre jugadores.
English
Video world models have shown immense promise for interactive simulation and entertainment, but current systems still struggle with two important aspects of interactivity: user control over the environment for reproducible, editable experiences, and shared inference where players hold influence over a common world. To address these limitations, we introduce an explicit external memory into the system, a persistent state operating independent of the model's context window, that is continually updated by user actions and queried throughout the generation roll-out. Unlike conventional diffusion game engines that operate as next-frame predictors, our approach decomposes generation into Memory, Observation, and Dynamics modules. This design gives users direct, editable control over environment structure via an editable memory representation, and it naturally extends to real-time multiplayer rollouts with coherent viewpoints and consistent cross-player interactions.