DreamWorld: Modelagem Unificada de Mundos na Geração de Vídeo

Resumo

Apesar dos avanços impressionantes na geração de vídeos, os modelos existentes continuam limitados à plausibilidade superficial, carecendo de uma compreensão coerente e unificada do mundo. As abordagens anteriores normalmente incorporam apenas uma única forma de conhecimento relacionado ao mundo ou dependem de estratégias rígidas de alinhamento para introduzir conhecimento adicional. No entanto, alinhar um único conhecimento mundial é insuficiente para constituir um modelo de mundo, que requer a modelagem conjunta de múltiplas dimensões heterogêneas (por exemplo, senso comum físico, consistência 3D e temporal). Para superar esta limitação, introduzimos o DreamWorld, uma estrutura unificada que integra conhecimento mundial complementar em geradores de vídeo através de um Paradigma de Modelagem Conjunta do Mundo, prevendo conjuntamente pixels de vídeo e características de modelos de base para capturar dinâmicas temporais, geometria espacial e consistência semântica. No entanto, otimizar ingenuamente esses objetivos heterogêneos pode levar a instabilidade visual e cintilação temporal. Para mitigar este problema, propomos o Recozimento de Restrição Consistente (CCA) para regular progressivamente as restrições em nível mundial durante o treinamento, e a Orientação Interna de Múltiplas Fontes para impor prioridades mundiais aprendidas na inferência. Avaliações extensivas mostram que o DreamWorld melhora a consistência mundial, superando o Wan2.1 em 2.26 pontos no VBench. O código será disponibilizado publicamente em https://github.com/ABU121111/DreamWorld{mypink{Github}}.

English

Despite impressive progress in video generation, existing models remain limited to surface-level plausibility, lacking a coherent and unified understanding of the world. Prior approaches typically incorporate only a single form of world-related knowledge or rely on rigid alignment strategies to introduce additional knowledge. However, aligning the single world knowledge is insufficient to constitute a world model that requires jointly modeling multiple heterogeneous dimensions (e.g., physical commonsense, 3D and temporal consistency). To address this limitation, we introduce DreamWorld, a unified framework that integrates complementary world knowledge into video generators via a Joint World Modeling Paradigm, jointly predicting video pixels and features from foundation models to capture temporal dynamics, spatial geometry, and semantic consistency. However, naively optimizing these heterogeneous objectives can lead to visual instability and temporal flickering. To mitigate this issue, we propose Consistent Constraint Annealing (CCA) to progressively regulate world-level constraints during training, and Multi-Source Inner-Guidance to enforce learned world priors at inference. Extensive evaluations show that DreamWorld improves world consistency, outperforming Wan2.1 by 2.26 points on VBench. Code will be made publicly available at https://github.com/ABU121111/DreamWorld{mypink{Github}}.

DreamWorld: Modelagem Unificada de Mundos na Geração de Vídeo

DreamWorld: Unified World Modeling in Video Generation

Resumo

Support