DreamWorld: Единое моделирование мира в генерации видео

Аннотация

Несмотря на впечатляющий прогресс в генерации видео, существующие модели остаются ограниченными поверхностной правдоподобностью и не обладают целостным и единым пониманием мира. Предыдущие подходы обычно включают лишь одну форму знаний о мире или полагаются на жесткие стратегии согласования для введения дополнительных знаний. Однако согласование единичных знаний о мире недостаточно для формирования мировой модели, которая требует совместного моделирования множества разнородных измерений (например, здравого смысла в физике, 3D- и временной согласованности). Для преодоления этого ограничения мы представляем DreamWorld — унифицированную框架, которая интегрирует комплементарные знания о мире в генераторы видео через Парадигму Совместного Моделирования Мира, совместно предсказывая пиксели видео и признаки из фундаментальных моделей для захвата временной динамики, пространственной геометрии и семантической согласованности. Однако наивная оптимизация этих разнородных целей может приводить к визуальной нестабильности и временному мерцанию. Для смягчения этой проблемы мы предлагаем Постепенное Ослабление Согласованных Ограничений (Consistent Constraint Annealing, CCA) для прогрессирующего регулирования ограничений на уровне мира в процессе обучения и Внутреннее Направление по Множеству Источников (Multi-Source Inner-Guidance) для применения выученных априорных знаний о мире на этапе вывода. Обширные оценки показывают, что DreamWorld улучшает согласованность мира, превосходя Wan2.1 на 2.26 балла по VBench. Код будет общедоступен по адресу https://github.com/ABU121111/DreamWorld.

English

Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce DreamWorld, a unified framework that integrates complementary world knowledge into video generators via a Joint World Modeling Paradigm, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose Consistent Constraint Annealing (CCA) to progressively regulate world-level constraints during training, and Multi-Source Inner-Guidance to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at https://github.com/ABU121111/DreamWorld{mypink{Github}}.

DreamWorld: Единое моделирование мира в генерации видео

DreamWorld: Unified World Modeling in Video Generation

Аннотация

Support