ChatPaper.aiChatPaper

WorldPlay : Vers une cohérence géométrique à long terme pour la modélisation interactive en temps réel de mondes virtuels

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

December 16, 2025
papers.authors: Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, Junta Wu, Zehan Wang, Zhenwei Wang, Yunhong Wang, Jun Zhang, Tengfei Wang, Chunchao Guo
cs.AI

papers.abstract

Ce document présente WorldPlay, un modèle de diffusion vidéo en flux continu permettant une modélisation mondiale interactive en temps réel avec une cohérence géométrique à long terme, résolvant le compromis entre vitesse et mémoire qui limite les méthodes actuelles. WorldPlay tire sa puissance de trois innovations clés. 1) Nous utilisons une Représentation d'Actions Duale pour permettre un contrôle d'action robuste en réponse aux entrées clavier et souris de l'utilisateur. 2) Pour assurer une cohérence à long terme, notre Mémoire de Contexte Reconstitué reconstruit dynamiquement le contexte à partir des images passées et utilise un recadrage temporel pour garder accessibles les images géométriquement importantes mais anciennes, atténuant efficacement l'affaiblissement de la mémoire. 3) Nous proposons également le Forçage de Contexte, une nouvelle méthode de distillation conçue pour un modèle conscient de la mémoire. L'alignement du contexte mémoriel entre le modèle enseignant et le modèle étudiant préserve la capacité de ce dernier à utiliser des informations à long terme, permettant des vitesses en temps réel tout en empêchant la dérive des erreurs. Ensemble, ces innovations permettent à WorldPlay de générer des vidéos en flux continu de 720p sur de longues durées à 24 images par seconde avec une cohérence supérieure, se comparant favorablement aux techniques existantes et montrant une forte généralisation à travers des scènes diverses. La page du projet et une démo en ligne sont disponibles aux adresses suivantes : https://3d-models.hunyuan.tencent.com/world/ et https://3d.hunyuan.tencent.com/sceneTo3D.
English
This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.
PDF713February 7, 2026