От виртуальных игр к реальным развлечениям

Аннотация

Мы представляем RealPlay, нейросетевой игровой движок для реального мира, который позволяет генерировать интерактивное видео на основе управляющих сигналов пользователя. В отличие от предыдущих работ, ориентированных на игровую графику, RealPlay стремится создавать фотореалистичные и временно согласованные видеопоследовательности, напоминающие реальные съемки. Он работает в интерактивном цикле: пользователь наблюдает сгенерированную сцену, отправляет управляющую команду и получает короткий видеосегмент в ответ. Для обеспечения такой реалистичной и отзывчивой генерации мы решаем ключевые задачи, включая итеративное предсказание по сегментам для низкой задержки, временную согласованность между итерациями и точное реагирование на управление. RealPlay обучается на комбинации размеченных игровых данных и немаркированных видеозаписей из реального мира, не требуя аннотаций действий в реальном мире. Примечательно, что мы наблюдаем две формы обобщения: (1) перенос управления — RealPlay эффективно преобразует управляющие сигналы из виртуальных сценариев в реальные; и (2) перенос сущностей — несмотря на то, что метки обучения получены исключительно из игры с автогонками, RealPlay обобщает управление на разнообразные сущности реального мира, включая велосипеды и пешеходов, помимо транспортных средств. Страница проекта доступна по ссылке: https://wenqsun.github.io/RealPlay/

English

We introduce RealPlay, a neural network-based real-world game engine that enables interactive video generation from user control signals. Unlike prior works focused on game-style visuals, RealPlay aims to produce photorealistic, temporally consistent video sequences that resemble real-world footage. It operates in an interactive loop: users observe a generated scene, issue a control command, and receive a short video chunk in response. To enable such realistic and responsive generation, we address key challenges including iterative chunk-wise prediction for low-latency feedback, temporal consistency across iterations, and accurate control response. RealPlay is trained on a combination of labeled game data and unlabeled real-world videos, without requiring real-world action annotations. Notably, we observe two forms of generalization: (1) control transfer-RealPlay effectively maps control signals from virtual to real-world scenarios; and (2) entity transfer-although training labels originate solely from a car racing game, RealPlay generalizes to control diverse real-world entities, including bicycles and pedestrians, beyond vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/

От виртуальных игр к реальным развлечениям

From Virtual Games to Real-World Play

Аннотация

Support