DreamWorld: 映像生成における統一的世界モデリング
DreamWorld: Unified World Modeling in Video Generation
February 28, 2026
著者: Boming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang
cs.AI
要旨
映像生成における目覚ましい進展にもかかわらず、既存のモデルは表面的な説得力に留まり、世界に対する首尾一貫した統一的な理解を欠いている。従来のアプローチは通常、世界に関連する知識の単一の形態のみを組み込むか、追加の知識を導入するために硬直的なアライメント戦略に依存している。しかし、単一の世界知識を整合させるだけでは、複数の異種次元(例:物理的常識、3次元および時間的一貫性)を共同でモデル化することを必要とする世界モデルを構成するには不十分である。この制限に対処するため、我々は**DreamWorld**を提案する。これは**Joint World Modeling Paradigm**を介して相補的な世界知識を映像生成器に統合する統一フレームワークであり、基礎モデルから映像ピクセルと特徴量を共同で予測することで、時間的ダイナミクス、空間的幾何学、および意味的一貫性を捉える。しかし、これらの異種目的関数を単純に最適化すると、視覚的不安定性や時間的フリッカーが生じる可能性がある。この問題を軽減するため、我々は訓練中に世界レベルの制約を段階的に調整する**Consistent Constraint Annealing (CCA)** と、推論時に学習済みの世界事前分布を強化する**Multi-Source Inner-Guidance**を提案する。大規模な評価により、DreamWorldが世界の一貫性を向上させ、VBenchにおいてWan2.1を2.26ポイント上回ることを示した。コードはhttps://github.com/ABU121111/DreamWorld{mypink{Github}}で公開予定である。
English
Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce DreamWorld, a unified framework that integrates complementary world knowledge into video generators via a Joint World Modeling Paradigm, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose Consistent Constraint Annealing (CCA) to progressively regulate world-level constraints during training, and Multi-Source Inner-Guidance to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at https://github.com/ABU121111/DreamWorld{mypink{Github}}.