DreamWorld: Verenigde Wereldmodellering in Videogeneratie

Samenvatting

Ondanks indrukwekkende vooruitgang in videogeneratie blijven bestaande modellen beperkt tot oppervlakkige geloofwaardigheid, zonder een coherent en uniform begrip van de wereld. Bestaande methoden integreren doorgaans slechts één vorm van wereldgerelateerde kennis of vertrouwen op rigide aligneringsstrategieën om aanvullende kennis in te brengen. Het aligneren van enkele wereldkennis is echter onvoldoende om een wereldmodel te vormen dat gezamenlijke modellering van meerdere heterogene dimensies vereist (bijvoorbeeld fysiek gezond verstand, 3D- en temporele consistentie). Om deze beperking aan te pakken, introduceren we DreamWorld, een uniform kader dat complementaire wereldkennis integreert in videogeneratoren via een Joint World Modeling Paradigm, waarbij gezamenlijk videopixels en kenmerken van foundationmodellen worden voorspeld om temporele dynamiek, ruimtelijke geometrie en semantische consistentie vast te leggen. Een naïeve optimalisatie van deze heterogene doelstellingen kan echter leiden tot visuele instabiliteit en temporele flikkering. Om dit probleem te verlichten, stellen we Consistent Constraint Annealing (CCA) voor om wereldniveau-beperkingen tijdens de training geleidelijk te reguleren, en Multi-Source Inner-Guidance om geleerde wereldprioriteiten tijdens inferentie af te dwingen. Uitgebreide evaluaties tonen aan dat DreamWorld de wereldconsistentie verbetert en Wan2.1 met 2.26 punten overtreft op VBench. Code wordt openbaar gemaakt op https://github.com/ABU121111/DreamWorld.

English

Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce DreamWorld, a unified framework that integrates complementary world knowledge into video generators via a Joint World Modeling Paradigm, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose Consistent Constraint Annealing (CCA) to progressively regulate world-level constraints during training, and Multi-Source Inner-Guidance to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at https://github.com/ABU121111/DreamWorld{mypink{Github}}.

DreamWorld: Verenigde Wereldmodellering in Videogeneratie

DreamWorld: Unified World Modeling in Video Generation

Samenvatting

Support