ChatPaper.aiChatPaper

Van virtuele spellen naar echt wereldspel

From Virtual Games to Real-World Play

June 23, 2025
Auteurs: Wenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu
cs.AI

Samenvatting

We introduceren RealPlay, een op neurale netwerken gebaseerde game-engine voor de echte wereld die interactieve videogeneratie mogelijk maakt vanuit gebruikersbesturingssignalen. In tegenstelling tot eerdere werken die zich richten op game-achtige visuals, streeft RealPlay ernaar fotorealistische, temporeel consistente videosequenties te produceren die lijken op beelden uit de echte wereld. Het werkt in een interactieve lus: gebruikers observeren een gegenereerde scène, geven een besturingscommando en ontvangen een kort videofragment als reactie. Om een dergelijke realistische en responsieve generatie mogelijk te maken, pakken we belangrijke uitdagingen aan, waaronder iteratieve voorspelling per fragment voor lage latentie-feedback, temporele consistentie tussen iteraties en nauwkeurige besturingsrespons. RealPlay wordt getraind op een combinatie van gelabelde gamedata en ongelabelde video's uit de echte wereld, zonder dat annotaties van acties uit de echte wereld nodig zijn. Opmerkelijk is dat we twee vormen van generalisatie waarnemen: (1) besturingsoverdracht – RealPlay zet besturingssignalen effectief om van virtuele naar real-world scenario's; en (2) entiteitsoverdracht – hoewel de trainingslabels uitsluitend afkomstig zijn uit een autoracegame, generaliseert RealPlay naar het besturen van diverse entiteiten uit de echte wereld, waaronder fietsen en voetgangers, naast voertuigen. De projectpagina is te vinden op: https://wenqsun.github.io/RealPlay/
English
We introduce RealPlay, a neural network-based real-world game engine that enables interactive video generation from user control signals. Unlike prior works focused on game-style visuals, RealPlay aims to produce photorealistic, temporally consistent video sequences that resemble real-world footage. It operates in an interactive loop: users observe a generated scene, issue a control command, and receive a short video chunk in response. To enable such realistic and responsive generation, we address key challenges including iterative chunk-wise prediction for low-latency feedback, temporal consistency across iterations, and accurate control response. RealPlay is trained on a combination of labeled game data and unlabeled real-world videos, without requiring real-world action annotations. Notably, we observe two forms of generalization: (1) control transfer-RealPlay effectively maps control signals from virtual to real-world scenarios; and (2) entity transfer-although training labels originate solely from a car racing game, RealPlay generalizes to control diverse real-world entities, including bicycles and pedestrians, beyond vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/
PDF101June 24, 2025