DreamWorld: Vereinheitlichte Weltmodellierung in der Videogenerierung

Zusammenfassung

Trotz beeindruckender Fortschritte in der Videogenerierung bleiben bestehende Modelle auf oberflächliche Plausibilität beschränkt und verfügen nicht über ein kohärentes und einheitliches Verständnis der Welt. Bisherige Ansätze integrieren typischerweise nur eine einzige Form von Weltwissen oder verlassen sich auf starre Alignment-Strategien, um zusätzliches Wissen einzuführen. Die Ausrichtung an einem einzelnen Weltwissen ist jedoch unzureichend, um ein Weltmodell zu bilden, das die gemeinsame Modellierung mehrerer heterogener Dimensionen erfordert (z. B. physikalisches Alltagswissen, 3D- und zeitliche Konsistenz). Um diese Einschränkung zu adressieren, stellen wir DreamWorld vor, einen einheitlichen Rahmen, der komplementäres Weltwissen über ein *Joint World Modeling Paradigm* in Videogeneratoren integriert. Dieses Paradigma sagt gemeinsam Videopixel und Features von Foundation-Modellen vorher, um zeitliche Dynamik, räumliche Geometrie und semantische Konsistenz zu erfassen. Eine naive Optimierung dieser heterogenen Ziele kann jedoch zu visueller Instabilität und zeitlichem Flackern führen. Um dieses Problem zu mildern, schlagen wir *Consistent Constraint Annealing* (CCA) vor, um weltbezogene Constraints während des Trainings progressiv zu regulieren, sowie eine *Multi-Source Inner-Guidance*, um gelernte Welt-Priors beim Inferenzvorgang durchzusetzen. Umfangreiche Auswertungen zeigen, dass DreamWorld die Weltkonsistenz verbessert und Wan2.1 auf VBench um 2.26 Punkte übertrifft. Der Code wird unter https://github.com/ABU121111/DreamWorld{mypink{Github}} öffentlich verfügbar gemacht.

English

Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce DreamWorld, a unified framework that integrates complementary world knowledge into video generators via a Joint World Modeling Paradigm, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose Consistent Constraint Annealing (CCA) to progressively regulate world-level constraints during training, and Multi-Source Inner-Guidance to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at https://github.com/ABU121111/DreamWorld{mypink{Github}}.

DreamWorld: Vereinheitlichte Weltmodellierung in der Videogenerierung

DreamWorld: Unified World Modeling in Video Generation

Zusammenfassung

Support