ChatPaper.aiChatPaper

Da Giochi Virtuali a Gioco nel Mondo Reale

From Virtual Games to Real-World Play

June 23, 2025
Autori: Wenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu
cs.AI

Abstract

Presentiamo RealPlay, un motore di gioco basato su reti neurali per il mondo reale che consente la generazione interattiva di video a partire da segnali di controllo dell'utente. A differenza dei lavori precedenti focalizzati su visuali di tipo videoludico, RealPlay mira a produrre sequenze video fotorealistiche e temporalmente coerenti che assomigliano a riprese del mondo reale. Opera in un ciclo interattivo: gli utenti osservano una scena generata, impartiscono un comando di controllo e ricevono in risposta un breve segmento video. Per abilitare una generazione così realistica e reattiva, affrontiamo sfide chiave tra cui la previsione iterativa a segmenti per un feedback a bassa latenza, la coerenza temporale tra le iterazioni e una risposta accurata ai comandi. RealPlay viene addestrato su una combinazione di dati di gioco etichettati e video del mondo reale non etichettati, senza richiedere annotazioni di azioni reali. In particolare, osserviamo due forme di generalizzazione: (1) trasferimento del controllo - RealPlay mappa efficacemente i segnali di controllo da scenari virtuali a quelli reali; e (2) trasferimento di entità - sebbene le etichette di addestramento provengano esclusivamente da un gioco di corse automobilistiche, RealPlay generalizza il controllo a diverse entità del mondo reale, tra cui biciclette e pedoni, oltre ai veicoli. La pagina del progetto è disponibile all'indirizzo: https://wenqsun.github.io/RealPlay/
English
We introduce RealPlay, a neural network-based real-world game engine that enables interactive video generation from user control signals. Unlike prior works focused on game-style visuals, RealPlay aims to produce photorealistic, temporally consistent video sequences that resemble real-world footage. It operates in an interactive loop: users observe a generated scene, issue a control command, and receive a short video chunk in response. To enable such realistic and responsive generation, we address key challenges including iterative chunk-wise prediction for low-latency feedback, temporal consistency across iterations, and accurate control response. RealPlay is trained on a combination of labeled game data and unlabeled real-world videos, without requiring real-world action annotations. Notably, we observe two forms of generalization: (1) control transfer-RealPlay effectively maps control signals from virtual to real-world scenarios; and (2) entity transfer-although training labels originate solely from a car racing game, RealPlay generalizes to control diverse real-world entities, including bicycles and pedestrians, beyond vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/
PDF101June 24, 2025