ChatPaper.aiChatPaper

MultiGen: Level-Design für editierbare Multiplayer-Welten in Diffusions-Spiele-Engines

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

March 30, 2026
Autoren: Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz
cs.AI

Zusammenfassung

Videoweltmodelle haben großes Potenzial für interaktive Simulation und Unterhaltung gezeigt, doch aktuelle Systeme kämpfen noch mit zwei wichtigen Aspekten der Interaktivität: der Benutzerkontrolle über die Umgebung für reproduzierbare, editierbare Erlebnisse und der gemeinsamen Inferenz, bei der Spieler Einfluss auf eine gemeinsame Welt ausüben. Um diese Einschränkungen zu adressieren, führen wir einen expliziten externen Speicher in das System ein – einen persistenten Zustand, der unabhängig vom Kontextfenster des Modells operiert und kontinuierlich durch Benutzeraktionen aktualisiert sowie während des Generierungsrollouts abgefragt wird. Im Gegensatz zu konventionellen Diffusions-Spiel-Engines, die als Next-Frame-Prädiktoren arbeiten, zerlegt unser Ansatz die Generierung in Speicher-, Beobachtungs- und Dynamikmodule. Dieses Design gibt Benutzern direkte, editierbare Kontrolle über die Umgebungsstruktur durch eine editierbare Speicherrepräsentation und erstreckt sich natürlich auf Echtzeit-Multiplayer-Rollouts mit kohärenten Blickwinkeln und konsistenten spielerübergreifenden Interaktionen.
English
Video world models have shown immense promise for interactive simulation and entertainment, but current systems still struggle with two important aspects of interactivity: user control over the environment for reproducible, editable experiences, and shared inference where players hold influence over a common world. To address these limitations, we introduce an explicit external memory into the system, a persistent state operating independent of the model's context window, that is continually updated by user actions and queried throughout the generation roll-out. Unlike conventional diffusion game engines that operate as next-frame predictors, our approach decomposes generation into Memory, Observation, and Dynamics modules. This design gives users direct, editable control over environment structure via an editable memory representation, and it naturally extends to real-time multiplayer rollouts with coherent viewpoints and consistent cross-player interactions.
PDF01April 4, 2026