DreamX-World 1.0: Un Modelo de Mundo Interactivo de Propósito General
DreamX-World 1.0: A General-Purpose Interactive World Model
June 15, 2026
Autores: DreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu
cs.AI
Resumen
DreamX-World 1.0 es un modelo de mundo interactivo generalista de texto/imagen a video para generación controlable de horizonte largo. Admite navegación de cámara, re-visitación de regiones previamente observadas y eventos invocables mediante indicaciones en dominios fotorrealistas, de estilo de juego y estilizados. Nuestro motor de datos combina renderizado con Unreal Engine de precisión cinematográfica, grabaciones de jugabilidad ricas en acciones y videos del mundo real con geometría de cámara recuperada. Para el control de cámara, introducimos E-PRoPE, una variante ligera de codificación posicional proyectiva que conserva la geometría de cámara proyectiva de PRoPE mientras aplica atención sensible a la cámara sobre tokens reducidos espacialmente. Convertimos un generador de video bidireccional en un modelo de mundo autorregresivo de pocos pasos mediante forzamiento causal, destilación al estilo DMD y entrenamiento de despliegue largo. El entrenamiento en contextos de horizonte largo autogenerados expone al modelo a su propio historial generado y reduce la deriva de estilo y color que se acumula a lo largo de los fragmentos autorregresivos. La Persistencia de Escena Condicionada por Memoria recupera vistas anteriores mediante recuperación basada en geometría de cámara, mientras que el reciclaje residual hace que la ruta de condicionamiento sea menos sensible a latentes de memoria imperfectos. El Ajuste por Instrucciones de Eventos añade control de eventos componibles, y la alineación por aprendizaje por refuerzo recupera el control de cámara y la calidad visual tras la destilación. Con ejecución DiT de precisión mixta, reutilización residual, decodificación VAE podada al 75% y paralelismo de tubería asíncrono, DreamX-World 1.0 alcanza hasta 16 FPS en ocho GPU RTX 5090. En nuestra evaluación básica de 5 segundos, DreamX-World 1.0 logra una puntuación de control de cámara de 73.75 y una puntuación global de 84.76, superando a HY-WorldPlay 1.5 y LingBot-World en puntuación global, que obtienen 80.79 y 80.45 respectivamente.
English
DreamX-World 1.0 is a general-purpose interactive text/image-to-video world model for controllable long-horizon generation. It supports camera navigation, revisits to previously observed regions, and promptable events across photorealistic, game-style, and stylized domains. Our data engine combines camera-accurate Unreal Engine rendering, action-rich gameplay recordings, and real-world videos with recovered camera geometry. For camera control, we introduce E-PRoPE, a lightweight variant of projective positional encoding that retains PRoPE's projective camera geometry while applying camera-aware attention to spatially reduced tokens. We convert a bidirectional video generator into a few-step autoregressive world model using causal forcing, DMD-style distillation, and long-rollout training. Training on self-generated long-horizon contexts exposes the model to its own generated history and reduces the style and color drift that accumulates across autoregressive chunks. Memory-Conditioned Scene Persistence retrieves earlier views through camera-geometry-based retrieval, while residual recycling makes the conditioning path less sensitive to imperfect memory latents. Event Instruction Tuning adds composable event control, and reinforcement learning alignment recovers camera control and visual quality after distillation. With mixed-precision DiT execution, residual reuse, 75\%-pruned VAE decoding, and asynchronous pipeline parallelism, DreamX-World 1.0 reaches up to 16\,FPS on eight RTX\,5090 GPUs. On our 5-second basic evaluation, DreamX-World 1.0 achieves a camera-control score of 73.75 and an overall score of 84.76, outperforming HY-WorldPlay 1.5 and LingBot-World in overall score, which achieve 80.79 and 80.45, respectively.