MultiGen : Conception de niveaux pour des mondes multijoueurs modifiables dans les moteurs de jeu à diffusion
MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines
March 30, 2026
Auteurs: Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz
cs.AI
Résumé
Les modèles vidéo du monde ont démontré un immense potentiel pour la simulation interactive et le divertissement, mais les systèmes actuels peinent encore avec deux aspects cruciaux de l'interactivité : le contrôle utilisateur sur l'environnement pour des expériences reproductibles et modifiables, et l'inférence partagée où les joueurs exercent une influence sur un monde commun. Pour résoudre ces limitations, nous introduisons une mémoire externe explicite dans le système - un état persistant fonctionnant indépendamment de la fenêtre de contexte du modèle - qui est continuellement mise à jour par les actions des utilisateurs et interrogée tout au long du déroulement de la génération. Contrairement aux moteurs de jeu par diffusion conventionnels qui fonctionnent comme des prédicteurs d'image suivante, notre approche décompose la génération en modules Mémoire, Observation et Dynamique. Cette conception offre aux utilisateurs un contrôle direct et modifiable sur la structure de l'environnement via une représentation mémoire éditable, et s'étend naturellement à des déploiements multijoueurs en temps réel avec des points de vue cohérents et des interactions transversales consistantes entre les joueurs.
English
Video world models have shown immense promise for interactive simulation and entertainment, but current systems still struggle with two important aspects of interactivity: user control over the environment for reproducible, editable experiences, and shared inference where players hold influence over a common world. To address these limitations, we introduce an explicit external memory into the system, a persistent state operating independent of the model's context window, that is continually updated by user actions and queried throughout the generation roll-out. Unlike conventional diffusion game engines that operate as next-frame predictors, our approach decomposes generation into Memory, Observation, and Dynamics modules. This design gives users direct, editable control over environment structure via an editable memory representation, and it naturally extends to real-time multiplayer rollouts with coherent viewpoints and consistent cross-player interactions.