ChatPaper.aiChatPaper

Von virtuellen Spielen zum realen Spiel

From Virtual Games to Real-World Play

June 23, 2025
Autoren: Wenqiang Sun, Fangyun Wei, Jinjing Zhao, Xi Chen, Zilong Chen, Hongyang Zhang, Jun Zhang, Yan Lu
cs.AI

Zusammenfassung

Wir stellen RealPlay vor, eine auf neuronalen Netzwerken basierende Echtwelt-Spiel-Engine, die die interaktive Videogenerierung aus Benutzersteuersignalen ermöglicht. Im Gegensatz zu früheren Arbeiten, die sich auf spielähnliche Visuals konzentrierten, zielt RealPlay darauf ab, fotorealistische, zeitlich konsistente Videosequenzen zu erzeugen, die realen Aufnahmen ähneln. Es arbeitet in einer interaktiven Schleife: Benutzer beobachten eine generierte Szene, geben ein Steuerkommando ab und erhalten als Antwort einen kurzen Videoclip. Um eine derart realistische und reaktionsschnelle Generierung zu ermöglichen, adressieren wir Schlüsselherausforderungen, darunter iterative, abschnittsweise Vorhersage für niedrige Latenz, zeitliche Konsistenz über Iterationen hinweg und präzise Steuerungsreaktion. RealPlay wird mit einer Kombination aus beschrifteten Spieledaten und unbeschrifteten Echtwelt-Videos trainiert, ohne dass Annotationen für reale Aktionen erforderlich sind. Bemerkenswerterweise beobachten wir zwei Formen der Generalisierung: (1) Steuerungstransfer – RealPlay bildet Steuersignale effektiv von virtuellen auf reale Szenarien ab; und (2) Entitätentransfer – obwohl die Trainingslabels ausschließlich aus einem Autorennspiel stammen, generalisiert RealPlay auf die Steuerung verschiedener realer Entitäten, einschließlich Fahrrädern und Fußgängern, über Fahrzeuge hinaus. Die Projektseite ist hier zu finden: https://wenqsun.github.io/RealPlay/
English
We introduce RealPlay, a neural network-based real-world game engine that enables interactive video generation from user control signals. Unlike prior works focused on game-style visuals, RealPlay aims to produce photorealistic, temporally consistent video sequences that resemble real-world footage. It operates in an interactive loop: users observe a generated scene, issue a control command, and receive a short video chunk in response. To enable such realistic and responsive generation, we address key challenges including iterative chunk-wise prediction for low-latency feedback, temporal consistency across iterations, and accurate control response. RealPlay is trained on a combination of labeled game data and unlabeled real-world videos, without requiring real-world action annotations. Notably, we observe two forms of generalization: (1) control transfer-RealPlay effectively maps control signals from virtual to real-world scenarios; and (2) entity transfer-although training labels originate solely from a car racing game, RealPlay generalizes to control diverse real-world entities, including bicycles and pedestrians, beyond vehicles. Project page can be found: https://wenqsun.github.io/RealPlay/
PDF81June 24, 2025