DreamX-World 1.0: Een algemeen toepasbaar interactief wereldmodel
DreamX-World 1.0: A General-Purpose Interactive World Model
June 15, 2026
Auteurs: DreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu
cs.AI
Samenvatting
DreamX-World 1.0 is een algemeen toepasbaar interactief tekst/beeld-naar-video wereldmodel voor beheerbare langehorizontgeneratie. Het ondersteunt cameranavigatie, herbezoeken aan eerder waargenomen regio's en aanwijsbare gebeurtenissen in fotorealistische, game-achtige en gestileerde domeinen. Onze data-engine combineert camera-accuraat Unreal Engine-rendering, actierijke gameplay-opnames en echte wereldvideo's met herstelde camerageometrie. Voor camerabesturing introduceren we E-PRoPE, een lichte variant van projectieve positionele codering die de projectieve camerageometrie van PRoPE behoudt terwijl camera-bewuste aandacht wordt toegepast op ruimtelijk gereduceerde tokens. We zetten een bidirectionele videogenerator om in een autoregressief wereldmodel met enkele stappen door gebruik te maken van causal forcing, DMD-stijl destillatie en lange-uitrolltraining. Training op zelfgegenereerde langehorizontcontexten stelt het model bloot aan zijn eigen gegenereerde geschiedenis en vermindert de stijl- en kleurdrift die zich ophoopt over autoregressieve brokken. Memory-Conditioned Scene Persistence herstelt eerdere weergaven door op camerageometrie gebaseerd ophalen, terwijl residual recycling het conditioneringspad minder gevoelig maakt voor imperfecte geheugenlatenten. Event Instruction Tuning voegt samengestelde gebeurtenisbesturing toe, en reinforcement learning-afstemming herstelt de camerabesturing en visuele kwaliteit na destillatie. Met gemengde-precisie DiT-uitvoering, residueel hergebruik, 75%-gesnoeide VAE-decodering en asynchrone pijplijnparallellisme bereikt DreamX-World 1.0 tot 16 FPS op acht RTX 5090 GPU's. Op onze 5-seconden basisevaluatie behaalt DreamX-World 1.0 een camerabesturingsscore van 73,75 en een algemene score van 84,76, waarmee het HY-WorldPlay 1.5 en LingBot-World overtreft in algemene score, die respectievelijk 80,79 en 80,45 behalen.
English
DreamX-World 1.0 is a general-purpose interactive text/image-to-video world model for controllable long-horizon generation. It supports camera navigation, revisits to previously observed regions, and promptable events across photorealistic, game-style, and stylized domains. Our data engine combines camera-accurate Unreal Engine rendering, action-rich gameplay recordings, and real-world videos with recovered camera geometry. For camera control, we introduce E-PRoPE, a lightweight variant of projective positional encoding that retains PRoPE's projective camera geometry while applying camera-aware attention to spatially reduced tokens. We convert a bidirectional video generator into a few-step autoregressive world model using causal forcing, DMD-style distillation, and long-rollout training. Training on self-generated long-horizon contexts exposes the model to its own generated history and reduces the style and color drift that accumulates across autoregressive chunks. Memory-Conditioned Scene Persistence retrieves earlier views through camera-geometry-based retrieval, while residual recycling makes the conditioning path less sensitive to imperfect memory latents. Event Instruction Tuning adds composable event control, and reinforcement learning alignment recovers camera control and visual quality after distillation. With mixed-precision DiT execution, residual reuse, 75\%-pruned VAE decoding, and asynchronous pipeline parallelism, DreamX-World 1.0 reaches up to 16\,FPS on eight RTX\,5090 GPUs. On our 5-second basic evaluation, DreamX-World 1.0 achieves a camera-control score of 73.75 and an overall score of 84.76, outperforming HY-WorldPlay 1.5 and LingBot-World in overall score, which achieve 80.79 and 80.45, respectively.