MultiGen: проектирование уровней для редактируемых многопользовательских миров в игровых движках на основе диффузии
MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines
March 30, 2026
Авторы: Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz
cs.AI
Аннотация
Видеомиры продемонстрировали огромный потенциал для интерактивного моделирования и развлечений, однако современные системы по-прежнему сталкиваются с трудностями в двух ключевых аспектах интерактивности: контроле пользователя над средой для воспроизводимых и редактируемых сценариев, а также совместном выводе, где игроки оказывают влияние на общий мир. Для преодоления этих ограничений мы вводим в систему явную внешнюю память — постоянное состояние, функционирующее независимо от контекстного окна модели, которое непрерывно обновляется действиями пользователя и запрашивается на протяжении всего процесса генерации. В отличие от традиционных диффузионных игровых движков, работающих как предсказатели следующего кадра, наш подход декомпозирует генерацию на модули Памяти, Наблюдения и Динамики. Такая архитектура предоставляет пользователям прямой редактируемый контроль над структурой среды через редактируемое представление памяти и естественным образом масштабируется до режима реального времени для многопользовательских сессий с согласованными точками обзора и последовательными межпользовательскими взаимодействиями.
English
Video world models have shown immense promise for interactive simulation and entertainment, but current systems still struggle with two important aspects of interactivity: user control over the environment for reproducible, editable experiences, and shared inference where players hold influence over a common world. To address these limitations, we introduce an explicit external memory into the system, a persistent state operating independent of the model's context window, that is continually updated by user actions and queried throughout the generation roll-out. Unlike conventional diffusion game engines that operate as next-frame predictors, our approach decomposes generation into Memory, Observation, and Dynamics modules. This design gives users direct, editable control over environment structure via an editable memory representation, and it naturally extends to real-time multiplayer rollouts with coherent viewpoints and consistent cross-player interactions.