ChatPaper.aiChatPaper

Des jeux virtuels au jeu dans le monde réel

From Virtual Games to Real-World Play

June 23, 2025
Auteurs: Wenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu
cs.AI

Résumé

Nous présentons RealPlay, un moteur de jeu basé sur des réseaux de neurones qui permet la génération interactive de vidéos à partir de signaux de contrôle utilisateur. Contrairement aux travaux antérieurs axés sur des visuels de type jeu vidéo, RealPlay vise à produire des séquences vidéo photoréalistes et temporellement cohérentes, ressemblant à des séquences du monde réel. Il fonctionne selon une boucle interactive : les utilisateurs observent une scène générée, émettent une commande de contrôle et reçoivent en réponse un court segment vidéo. Pour permettre une génération aussi réaliste et réactive, nous abordons des défis clés, notamment la prédiction itérative segment par segment pour un retour à faible latence, la cohérence temporelle entre les itérations et une réponse précise aux commandes de contrôle. RealPlay est entraîné sur une combinaison de données de jeu étiquetées et de vidéos du monde réel non étiquetées, sans nécessiter d’annotations d’actions réelles. Nous observons notamment deux formes de généralisation : (1) le transfert de contrôle—RealPeut mapper efficacement les signaux de contrôle des scénarios virtuels vers des scénarios réels ; et (2) le transfert d’entités—bien que les étiquettes d’entraînement proviennent uniquement d’un jeu de course automobile, RealPlay généralise le contrôle à diverses entités du monde réel, y compris des vélos et des piétons, au-delà des véhicules. La page du projet est disponible à l’adresse : https://wenqsun.github.io/RealPlay/
English
We introduce RealPlay, a neural network-based real-world game engine that enables interactive video generation from user control signals. Unlike prior works focused on game-style visuals, RealPlay aims to produce photorealistic, temporally consistent video sequences that resemble real-world footage. It operates in an interactive loop: users observe a generated scene, issue a control command, and receive a short video chunk in response. To enable such realistic and responsive generation, we address key challenges including iterative chunk-wise prediction for low-latency feedback, temporal consistency across iterations, and accurate control response. RealPlay is trained on a combination of labeled game data and unlabeled real-world videos, without requiring real-world action annotations. Notably, we observe two forms of generalization: (1) control transfer-RealPlay effectively maps control signals from virtual to real-world scenarios; and (2) entity transfer-although training labels originate solely from a car racing game, RealPlay generalizes to control diverse real-world entities, including bicycles and pedestrians, beyond vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/
PDF81June 24, 2025