ChatPaper.aiChatPaper

DreamX-World 1.0 : un modèle de monde interactif à usage général

DreamX-World 1.0: A General-Purpose Interactive World Model

June 15, 2026
Auteurs: DreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu
cs.AI

Résumé

DreamX-World 1.0 est un modèle de monde généraliste interactif texte/image-vers-vidéo pour la génération contrôlable à long horizon. Il prend en charge la navigation de caméra, les revisites de régions précédemment observées et les événements actionnables par requête dans des domaines photoréalistes, de style jeu vidéo et stylisés. Notre moteur de données combine un rendu Unreal Engine précis au niveau de la caméra, des enregistrements de gameplay riches en actions et des vidéos du monde réel avec une géométrie de caméra reconstruite. Pour le contrôle de la caméra, nous introduisons E‑PROPE, une variante légère de l'encodage positionnel projectif qui conserve la géométrie projective de PROPE tout en appliquant une attention sensible à la caméra à des tokens réduits spatialement. Nous convertissons un générateur vidéo bidirectionnel en un modèle de monde autorégressif à quelques étapes en utilisant le forçage causal, la distillation de type DMD et l'entraînement sur de longs déploiements. L'entraînement sur des contextes à long horizon auto-générés expose le modèle à son propre historique généré et réduit la dérive de style et de couleur qui s'accumule au fil des chunks autorégressifs. La Persistance de Scène Conditionnée par la Mémoire récupère les vues antérieures via un rappel basé sur la géométrie de la caméra, tandis que le recyclage résiduel rend le chemin de conditionnement moins sensible aux latences de mémoire imparfaites. L'Ajustement par Instructions d'Événements ajoute un contrôle d'événements composable, et l'alignement par apprentissage par renforcement rétablit le contrôle de la caméra et la qualité visuelle après distillation. Avec l'exécution DiT en précision mixte, la réutilisation résiduelle, le décodage VAE élagué à 75 % et le parallélisme de pipeline asynchrone, DreamX‑World 1.0 atteint jusqu'à 16 FPS sur huit GPU RTX 5090. Sur notre évaluation de base de 5 secondes, DreamX‑World 1.0 obtient un score de contrôle de caméra de 73,75 et un score global de 84,76, surpassant HY‑WorldPlay 1.5 et LingBot‑World en score global, qui obtiennent respectivement 80,79 et 80,45.
English
DreamX-World 1.0 is a general-purpose interactive text/image-to-video world model for controllable long-horizon generation. It supports camera navigation, revisits to previously observed regions, and promptable events across photorealistic, game-style, and stylized domains. Our data engine combines camera-accurate Unreal Engine rendering, action-rich gameplay recordings, and real-world videos with recovered camera geometry. For camera control, we introduce E-PRoPE, a lightweight variant of projective positional encoding that retains PRoPE's projective camera geometry while applying camera-aware attention to spatially reduced tokens. We convert a bidirectional video generator into a few-step autoregressive world model using causal forcing, DMD-style distillation, and long-rollout training. Training on self-generated long-horizon contexts exposes the model to its own generated history and reduces the style and color drift that accumulates across autoregressive chunks. Memory-Conditioned Scene Persistence retrieves earlier views through camera-geometry-based retrieval, while residual recycling makes the conditioning path less sensitive to imperfect memory latents. Event Instruction Tuning adds composable event control, and reinforcement learning alignment recovers camera control and visual quality after distillation. With mixed-precision DiT execution, residual reuse, 75\%-pruned VAE decoding, and asynchronous pipeline parallelism, DreamX-World 1.0 reaches up to 16\,FPS on eight RTX\,5090 GPUs. On our 5-second basic evaluation, DreamX-World 1.0 achieves a camera-control score of 73.75 and an overall score of 84.76, outperforming HY-WorldPlay 1.5 and LingBot-World in overall score, which achieve 80.79 and 80.45, respectively.