De Jogos Virtuais à Brincadeira no Mundo Real
From Virtual Games to Real-World Play
June 23, 2025
Autores: Wenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu
cs.AI
Resumo
Apresentamos o RealPlay, um motor de jogo baseado em redes neurais para o mundo real que permite a geração interativa de vídeos a partir de sinais de controle do usuário. Diferente de trabalhos anteriores focados em visuais de estilo de jogo, o RealPlay visa produzir sequências de vídeo fotorealistas e temporalmente consistentes que se assemelham a filmagens do mundo real. Ele opera em um loop interativo: os usuários observam uma cena gerada, emitem um comando de controle e recebem um trecho curto de vídeo em resposta. Para possibilitar essa geração realista e responsiva, abordamos desafios-chave, incluindo a previsão iterativa em trechos para feedback de baixa latência, consistência temporal entre iterações e resposta precisa ao controle. O RealPlay é treinado com uma combinação de dados rotulados de jogos e vídeos não rotulados do mundo real, sem exigir anotações de ações do mundo real. Notavelmente, observamos duas formas de generalização: (1) transferência de controle - o RealPlay mapeia efetivamente sinais de controle de cenários virtuais para o mundo real; e (2) transferência de entidades - embora os rótulos de treinamento sejam originados exclusivamente de um jogo de corrida de carros, o RealPlay generaliza para controlar diversas entidades do mundo real, incluindo bicicletas e pedestres, além de veículos. A página do projeto pode ser encontrada em: https://wenqsun.github.io/RealPlay/
English
We introduce RealPlay, a neural network-based real-world game engine that
enables interactive video generation from user control signals. Unlike prior
works focused on game-style visuals, RealPlay aims to produce photorealistic,
temporally consistent video sequences that resemble real-world footage. It
operates in an interactive loop: users observe a generated scene, issue a
control command, and receive a short video chunk in response. To enable such
realistic and responsive generation, we address key challenges including
iterative chunk-wise prediction for low-latency feedback, temporal consistency
across iterations, and accurate control response. RealPlay is trained on a
combination of labeled game data and unlabeled real-world videos, without
requiring real-world action annotations. Notably, we observe two forms of
generalization: (1) control transfer-RealPlay effectively maps control signals
from virtual to real-world scenarios; and (2) entity transfer-although training
labels originate solely from a car racing game, RealPlay generalizes to control
diverse real-world entities, including bicycles and pedestrians, beyond
vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/