DreamWorld: Modelado Unificado del Mundo en la Generación de Video

Resumen

A pesar del impresionante progreso en la generación de vídeo, los modelos existentes siguen limitados a una plausibilidad superficial, careciendo de una comprensión coherente y unificada del mundo. Los enfoques anteriores suelen incorporar solo una única forma de conocimiento relacionado con el mundo o dependen de estrategias de alineación rígidas para introducir conocimiento adicional. Sin embargo, alinear un único conocimiento del mundo es insuficiente para constituir un modelo mundial que requiere modelar conjuntamente múltiples dimensiones heterogéneas (por ejemplo, sentido común físico, consistencia 3D y temporal). Para abordar esta limitación, presentamos DreamWorld, un marco unificado que integra conocimiento mundial complementario en los generadores de vídeo mediante un Paradigma de Modelado Mundial Conjunto, que predice conjuntamente píxeles de vídeo y características de modelos fundacionales para capturar la dinámica temporal, la geometría espacial y la consistencia semántica. Sin embargo, optimizar estos objetivos heterogéneos de forma ingenua puede provocar inestabilidad visual y parpadeo temporal. Para mitigar este problema, proponemos el Recocido de Restricciones Consistentes (CCA) para regular progresivamente las restricciones a nivel mundial durante el entrenamiento, y una Guía Interna de Múltiples Fuentes para hacer cumplir los *priors* mundiales aprendidos durante la inferencia. Evaluaciones exhaustivas muestran que DreamWorld mejora la consistencia mundial, superando a Wan2.1 en 2.26 puntos en VBench. El código estará disponible públicamente en https://github.com/ABU121111/DreamWorld.

English

Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce DreamWorld, a unified framework that integrates complementary world knowledge into video generators via a Joint World Modeling Paradigm, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose Consistent Constraint Annealing (CCA) to progressively regulate world-level constraints during training, and Multi-Source Inner-Guidance to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at https://github.com/ABU121111/DreamWorld{mypink{Github}}.

DreamWorld: Modelado Unificado del Mundo en la Generación de Video

DreamWorld: Unified World Modeling in Video Generation

Resumen

Support