ChatPaper.aiChatPaper

DreamX-World 1.0: Ein Allzweck-interaktives Weltmodell

DreamX-World 1.0: A General-Purpose Interactive World Model

June 15, 2026
Autoren: DreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu
cs.AI

Zusammenfassung

DreamX-World 1.0 ist ein universelles interaktives Text/Bild-zu-Video-Weltmodell zur steuerbaren Langzeitgenerierung. Es unterstützt Kameranavigation, die Wiederbesuche zuvor beobachteter Regionen sowie promptgesteuerte Ereignisse in fotorealistischen, spielstilisierten und stilisierten Domänen. Unsere Daten-Engine kombiniert kameragenaues Unreal-Engine-Rendering, aktionsreiche Gameplay-Aufzeichnungen und reale Videos mit wiederhergestellter Kamerageometrie. Für die Kamerasteuerung führen wir E-PRoPE ein, eine leichtgewichtige Variante der projektiven Positionskodierung, die die projektive Kamerageometrie von PRoPE beibehält und gleichzeitig kamerabewusste Aufmerksamkeit auf räumlich reduzierte Token anwendet. Wir wandeln einen bidirektionalen Videogenerator in ein autoregressives Weltmodell mit wenigen Schritten um, indem wir kausales Forcing, DMD-artige Destillation und Langzeitausrolltraining einsetzen. Das Training auf selbstgenerierten Langzeitkontexten setzt das Modell seiner eigenen generierten Historie aus und reduziert den Stil- und Farbdrift, der sich über autoregressive Blöcke hinweg ansammelt. Memory-Conditioned Scene Persistence ruft frühere Ansichten über kamerageometriebasiertes Retrieval ab, während Residual Recycling den Konditionierungspfad weniger empfindlich gegenüber unvollkommenen Memory-Latentvariablen macht. Event Instruction Tuning fügt zusammensetzbare Ereignissteuerung hinzu, und Reinforcement-Learning-Alignment stellt Kamerasteuerung und visuelle Qualität nach der Destillation wieder her. Mit Mixed-Precision-DiT-Ausführung, Residuenwiederverwendung, um 75% beschnittener VAE-Dekodierung und asynchronem Pipeline-Parallelismus erreicht DreamX-World 1.0 bis zu 16 FPS auf acht RTX 5090 GPUs. In unserer grundlegenden 5-Sekunden-Evaluierung erzielt DreamX-World 1.0 einen Kamerasteuerungswert von 73,75 und einen Gesamtwert von 84,76 und übertrifft damit HY-WorldPlay 1.5 und LingBot-World im Gesamtwert, die 80,79 bzw. 80,45 erreichen.
English
DreamX-World 1.0 is a general-purpose interactive text/image-to-video world model for controllable long-horizon generation. It supports camera navigation, revisits to previously observed regions, and promptable events across photorealistic, game-style, and stylized domains. Our data engine combines camera-accurate Unreal Engine rendering, action-rich gameplay recordings, and real-world videos with recovered camera geometry. For camera control, we introduce E-PRoPE, a lightweight variant of projective positional encoding that retains PRoPE's projective camera geometry while applying camera-aware attention to spatially reduced tokens. We convert a bidirectional video generator into a few-step autoregressive world model using causal forcing, DMD-style distillation, and long-rollout training. Training on self-generated long-horizon contexts exposes the model to its own generated history and reduces the style and color drift that accumulates across autoregressive chunks. Memory-Conditioned Scene Persistence retrieves earlier views through camera-geometry-based retrieval, while residual recycling makes the conditioning path less sensitive to imperfect memory latents. Event Instruction Tuning adds composable event control, and reinforcement learning alignment recovers camera control and visual quality after distillation. With mixed-precision DiT execution, residual reuse, 75\%-pruned VAE decoding, and asynchronous pipeline parallelism, DreamX-World 1.0 reaches up to 16\,FPS on eight RTX\,5090 GPUs. On our 5-second basic evaluation, DreamX-World 1.0 achieves a camera-control score of 73.75 and an overall score of 84.76, outperforming HY-WorldPlay 1.5 and LingBot-World in overall score, which achieve 80.79 and 80.45, respectively.