DreamWorld: Modellazione Unificata del Mondo nella Generazione Video

Abstract

Nonostante i notevoli progressi nella generazione video, i modelli esistenti rimangono limitati a una plausibilità superficiale, mancando di una comprensione coerente e unificata del mondo. Gli approcci precedenti incorporano tipicamente una sola forma di conoscenza relativa al mondo o si affidano a strategie di allineamento rigide per introdurre conoscenze aggiuntive. Tuttavia, allineare una singola conoscenza mondiale è insufficiente per costituire un modello del mondo, che richiede invece la modellazione congiunta di multiple dimensioni eterogenee (ad esempio, senso comune fisico, coerenza 3D e temporale). Per affrontare questa limitazione, introduciamo DreamWorld, un framework unificato che integra conoscenze mondiali complementari nei generatori video attraverso un Paradigma di Modellazione Congiunta del Mondo, prevedendo congiuntamente i pixel video e le feature dei modelli di fondazione per catturare la dinamica temporale, la geometria spaziale e la coerenza semantica. Tuttavia, l'ottimizzazione ingenua di questi obiettivi eterogenei può portare a instabilità visiva e sfarfallio temporale. Per mitigare questo problema, proponiamo l'Addolcimento Progressivo dei Vincoli di Coerenza (CCA) per regolare gradualmente i vincoli a livello mondiale durante l'addestramento, e una Guida Interna Multi-Sorgente per imporre i priori mondiali appresi durante l'inferenza. Valutazioni estensive mostrano che DreamWorld migliora la coerenza mondiale, superando Wan2.1 di 2.26 punti su VBench. Il codice sarà reso pubblico su https://github.com/ABU121111/DreamWorld.

English

Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce DreamWorld, a unified framework that integrates complementary world knowledge into video generators via a Joint World Modeling Paradigm, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose Consistent Constraint Annealing (CCA) to progressively regulate world-level constraints during training, and Multi-Source Inner-Guidance to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at https://github.com/ABU121111/DreamWorld{mypink{Github}}.

DreamWorld: Modellazione Unificata del Mondo nella Generazione Video

DreamWorld: Unified World Modeling in Video Generation

Abstract

Support