ChatPaper.aiChatPaper

De los juegos virtuales al juego en el mundo real

From Virtual Games to Real-World Play

June 23, 2025
Autores: Wenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu
cs.AI

Resumen

Presentamos RealPlay, un motor de juegos basado en redes neuronales que permite la generación interactiva de videos a partir de señales de control del usuario. A diferencia de trabajos previos centrados en gráficos de estilo de juego, RealPlay tiene como objetivo producir secuencias de video fotorrealistas y temporalmente consistentes que se asemejen a imágenes del mundo real. Opera en un bucle interactivo: los usuarios observan una escena generada, emiten un comando de control y reciben un fragmento de video corto como respuesta. Para habilitar una generación tan realista y receptiva, abordamos desafíos clave, como la predicción iterativa por fragmentos para retroalimentación de baja latencia, la consistencia temporal entre iteraciones y la respuesta precisa al control. RealPlay se entrena con una combinación de datos etiquetados de juegos y videos del mundo real sin etiquetar, sin requerir anotaciones de acciones del mundo real. Es notable observar dos formas de generalización: (1) transferencia de control—RealPlay mapea eficazmente las señales de control de escenarios virtuales a escenarios del mundo real; y (2) transferencia de entidades—aunque las etiquetas de entrenamiento provienen únicamente de un juego de carreras de autos, RealPlay generaliza el control a diversas entidades del mundo real, incluyendo bicicletas y peatones, más allá de vehículos. La página del proyecto se puede encontrar en: https://wenqsun.github.io/RealPlay/.
English
We introduce RealPlay, a neural network-based real-world game engine that enables interactive video generation from user control signals. Unlike prior works focused on game-style visuals, RealPlay aims to produce photorealistic, temporally consistent video sequences that resemble real-world footage. It operates in an interactive loop: users observe a generated scene, issue a control command, and receive a short video chunk in response. To enable such realistic and responsive generation, we address key challenges including iterative chunk-wise prediction for low-latency feedback, temporal consistency across iterations, and accurate control response. RealPlay is trained on a combination of labeled game data and unlabeled real-world videos, without requiring real-world action annotations. Notably, we observe two forms of generalization: (1) control transfer-RealPlay effectively maps control signals from virtual to real-world scenarios; and (2) entity transfer-although training labels originate solely from a car racing game, RealPlay generalizes to control diverse real-world entities, including bicycles and pedestrians, beyond vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/
PDF81June 24, 2025