WorldPlay: Verso la coerenza geometrica a lungo termine per la modellazione interattiva in tempo reale del mondo
WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling
December 16, 2025
Autori: Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, Junta Wu, Zehan Wang, Zhenwei Wang, Yunhong Wang, Jun Zhang, Tengfei Wang, Chunchao Guo
cs.AI
Abstract
Questo articolo presenta WorldPlay, un modello di diffusione video in streaming che consente la modellazione del mondo in tempo reale e interattiva con coerenza geometrica a lungo termine, risolvendo il compromesso tra velocità e memoria che limita i metodi attuali. WorldPlay trae potenza da tre innovazioni chiave. 1) Utilizziamo una Rappresentazione ad Azione Duale per abilitare un controllo robusto delle azioni in risposta agli input della tastiera e del mouse dell'utente. 2) Per imporre la coerenza a lungo termine, la nostra Memoria di Contesto Ricostituito ricostruisce dinamicamente il contesto dai frame passati e utilizza un re-inquadramento temporale per mantenere accessibili i frame geometricamente importanti ma molto antecedenti, allevando efficacemente l'attenuazione della memoria. 3) Proponiamo inoltre il Context Forcing, un nuovo metodo di distillazione progettato per modelli consapevoli della memoria. L'allineamento del contesto di memoria tra insegnante e studente preserva la capacità dello studente di utilizzare informazioni a lungo raggio, consentendo velocità in tempo reale prevenendo allo stesso tempo la deriva dell'errore. Nel complesso, WorldPlay genera video in streaming 720p a lungo orizzonte a 24 FPS con una coerenza superiore, confrontandosi favorevolmente con le tecniche esistenti e mostrando una forte generalizzazione attraverso scene diverse. La pagina del progetto e la demo online sono disponibili qui: https://3d-models.hunyuan.tencent.com/world/ e https://3d.hunyuan.tencent.com/sceneTo3D.
English
This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.