DreamX-World 1.0: Um Modelo de Mundo Interativo de Propósito Geral
DreamX-World 1.0: A General-Purpose Interactive World Model
June 15, 2026
Autores: DreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu
cs.AI
Resumo
DreamX-World 1.0 é um modelo de mundo geral interativo de texto/imagem para vídeo, projetado para geração controlável de horizonte longo. Ele suporta navegação de câmera, revisita a regiões previamente observadas e eventos acionáveis por prompt em domínios fotorrealistas, em estilo de jogo e estilizados. Nosso motor de dados combina renderização precisa de câmera no Unreal Engine, gravações de jogabilidade ricas em ação e vídeos do mundo real com geometria de câmera recuperada. Para controle de câmera, introduzimos o E-PRoPE, uma variante leve da codificação posicional projetiva que mantém a geometria de câmera projetiva do PRoPE enquanto aplica atenção consciente de câmera a tokens reduzidos espacialmente. Convertemos um gerador de vídeo bidirecional em um modelo de mundo autorregressivo de poucos passos usando forçamento causal, destilação estilo DMD e treinamento com longos roteiros. O treinamento em contextos de horizonte longo autogerados expõe o modelo ao seu próprio histórico gerado e reduz o desvio de estilo e cor que se acumula ao longo de blocos autorregressivos. A Persistência de Cena Condicionada à Memória recupera visualizações anteriores por meio de recuperação baseada em geometria de câmera, enquanto a reciclagem residual torna o caminho de condicionamento menos sensível a latentes de memória imperfeitas. A Ajustagem de Instruções de Evento adiciona controle de eventos combináveis, e o alinhamento por aprendizado por reforço recupera o controle de câmera e a qualidade visual após a destilação. Com execução DiT de precisão mista, reutilização residual, decodificação VAE podada em 75% e paralelismo de pipeline assíncrono, o DreamX-World 1.0 atinge até 16 FPS em oito GPUs RTX 5090. Em nossa avaliação básica de 5 segundos, o DreamX-World 1.0 alcança uma pontuação de controle de câmera de 73,75 e uma pontuação geral de 84,76, superando o HY-WorldPlay 1.5 e o LingBot-World na pontuação geral, que obtêm 80,79 e 80,45, respectivamente.
English
DreamX-World 1.0 is a general-purpose interactive text/image-to-video world model for controllable long-horizon generation. It supports camera navigation, revisits to previously observed regions, and promptable events across photorealistic, game-style, and stylized domains. Our data engine combines camera-accurate Unreal Engine rendering, action-rich gameplay recordings, and real-world videos with recovered camera geometry. For camera control, we introduce E-PRoPE, a lightweight variant of projective positional encoding that retains PRoPE's projective camera geometry while applying camera-aware attention to spatially reduced tokens. We convert a bidirectional video generator into a few-step autoregressive world model using causal forcing, DMD-style distillation, and long-rollout training. Training on self-generated long-horizon contexts exposes the model to its own generated history and reduces the style and color drift that accumulates across autoregressive chunks. Memory-Conditioned Scene Persistence retrieves earlier views through camera-geometry-based retrieval, while residual recycling makes the conditioning path less sensitive to imperfect memory latents. Event Instruction Tuning adds composable event control, and reinforcement learning alignment recovers camera control and visual quality after distillation. With mixed-precision DiT execution, residual reuse, 75\%-pruned VAE decoding, and asynchronous pipeline parallelism, DreamX-World 1.0 reaches up to 16\,FPS on eight RTX\,5090 GPUs. On our 5-second basic evaluation, DreamX-World 1.0 achieves a camera-control score of 73.75 and an overall score of 84.76, outperforming HY-WorldPlay 1.5 and LingBot-World in overall score, which achieve 80.79 and 80.45, respectively.