WorldPlay: Auf dem Weg zu langfristiger geometrischer Konsistenz für Echtzeit-Interaktive Weltmodellierung
WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
December 16, 2025
papers.authors: Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, Junta Wu, Zehan Wang, Zhenwei Wang, Yunhong Wang, Jun Zhang, Tengfei Wang, Chunchao Guo
cs.AI
papers.abstract
Dieses Paper stellt WorldPlay vor, ein Streaming-Video-Diffusionsmodell, das Echtzeit-Interaktion mit langfristiger geometrischer Konsistenz ermöglicht und damit den Zielkonflikt zwischen Geschwindigkeit und Speicherbedarf löst, der aktuelle Methoden limitiert. Die Leistungsfähigkeit von WorldPlay basiert auf drei zentralen Innovationen. 1) Wir verwenden eine Duale-Aktions-Repräsentation, um eine robuste Aktionssteuerung in Reaktion auf Tastatur- und Mauseingaben des Nutzers zu ermöglichen. 2) Um langfristige Konsistenz zu gewährleisten, baut unser Rekonstituierter-Kontext-Speicher Kontext aus vergangenen Frames dynamisch neu auf und verwendet temporäre Neurahmung, um geometrisch wichtige, aber weit zurückliegende Frames zugänglich zu halten, was Speicherattentuierung effektiv mildert. 3) Wir schlagen zudem Context Forcing vor, eine neuartige Destillationsmethode für speicherbewusste Modelle. Die Ausrichtung des Speicherkontexts zwischen Lehrer- und Schüler-Modell erhält die Fähigkeit des Schüler-Modells, langreichweitige Informationen zu nutzen, ermöglicht Echtzeitgeschwindigkeiten und verhindert gleichzeitig Fehlerdrift. In der Summe erzeugt WorldPlay langfristige 720p-Streaming-Videos mit 24 FPS und überlegener Konsistenz, schneidet im Vergleich zu bestehenden Techniken gut ab und zeigt starke Generalisierungsfähigkeit über diverse Szenen hinweg. Projektseite und Online-Demo sind verfügbar unter: https://3d-models.hunyuan.tencent.com/world/ und https://3d.hunyuan.tencent.com/sceneTo3D.
English
This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.