ChatPaper.aiChatPaper

От виртуальных игр к реальным развлечениям

From Virtual Games to Real-World Play

June 23, 2025
Авторы: Wenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu
cs.AI

Аннотация

Мы представляем RealPlay, нейросетевой игровой движок для реального мира, который позволяет генерировать интерактивное видео на основе управляющих сигналов пользователя. В отличие от предыдущих работ, ориентированных на игровую графику, RealPlay стремится создавать фотореалистичные и временно согласованные видеопоследовательности, напоминающие реальные съемки. Он работает в интерактивном цикле: пользователь наблюдает сгенерированную сцену, отправляет управляющую команду и получает короткий видеосегмент в ответ. Для обеспечения такой реалистичной и отзывчивой генерации мы решаем ключевые задачи, включая итеративное предсказание по сегментам для низкой задержки, временную согласованность между итерациями и точное реагирование на управление. RealPlay обучается на комбинации размеченных игровых данных и немаркированных видеозаписей из реального мира, не требуя аннотаций действий в реальном мире. Примечательно, что мы наблюдаем две формы обобщения: (1) перенос управления — RealPlay эффективно преобразует управляющие сигналы из виртуальных сценариев в реальные; и (2) перенос сущностей — несмотря на то, что метки обучения получены исключительно из игры с автогонками, RealPlay обобщает управление на разнообразные сущности реального мира, включая велосипеды и пешеходов, помимо транспортных средств. Страница проекта доступна по ссылке: https://wenqsun.github.io/RealPlay/
English
We introduce RealPlay, a neural network-based real-world game engine that enables interactive video generation from user control signals. Unlike prior works focused on game-style visuals, RealPlay aims to produce photorealistic, temporally consistent video sequences that resemble real-world footage. It operates in an interactive loop: users observe a generated scene, issue a control command, and receive a short video chunk in response. To enable such realistic and responsive generation, we address key challenges including iterative chunk-wise prediction for low-latency feedback, temporal consistency across iterations, and accurate control response. RealPlay is trained on a combination of labeled game data and unlabeled real-world videos, without requiring real-world action annotations. Notably, we observe two forms of generalization: (1) control transfer-RealPlay effectively maps control signals from virtual to real-world scenarios; and (2) entity transfer-although training labels originate solely from a car racing game, RealPlay generalizes to control diverse real-world entities, including bicycles and pedestrians, beyond vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/
PDF81June 24, 2025