ChatPaper.aiChatPaper

MultiGen: Design de Níveis para Mundos Multiplayer Editáveis em Motores de Jogo de Difusão

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

March 30, 2026
Autores: Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz
cs.AI

Resumo

Os modelos de mundo em vídeo demonstraram imenso potencial para simulação interativa e entretenimento, mas os sistemas atuais ainda lutam com dois aspectos importantes da interatividade: o controle do usuário sobre o ambiente para experiências reproduzíveis e editáveis, e a inferência compartilhada, onde os jogadores exercem influência sobre um mundo comum. Para superar essas limitações, introduzimos uma memória externa explícita no sistema, um estado persistente que opera independentemente da janela de contexto do modelo, sendo continuamente atualizado pelas ações do usuário e consultado durante todo o processo de geração. Diferente dos mecanismos de jogo baseados em difusão convencionais, que funcionam como preditores do próximo quadro, nossa abordagem decompõe a geração em módulos de Memória, Observação e Dinâmica. Este projeto oferece aos usuários controle direto e editável sobre a estrutura do ambiente por meio de uma representação de memória editável e se estende naturalmente para execuções em tempo real multijogador com perspectivas coerentes e interações consistentes entre jogadores.
English
Video world models have shown immense promise for interactive simulation and entertainment, but current systems still struggle with two important aspects of interactivity: user control over the environment for reproducible, editable experiences, and shared inference where players hold influence over a common world. To address these limitations, we introduce an explicit external memory into the system, a persistent state operating independent of the model's context window, that is continually updated by user actions and queried throughout the generation roll-out. Unlike conventional diffusion game engines that operate as next-frame predictors, our approach decomposes generation into Memory, Observation, and Dynamics modules. This design gives users direct, editable control over environment structure via an editable memory representation, and it naturally extends to real-time multiplayer rollouts with coherent viewpoints and consistent cross-player interactions.
PDF01April 4, 2026