MagicWorld: Exploração Interativa de Mundos em Vídeo Guiada por Geometria

Resumo

Os métodos recentes de modelos de mundo de vídeo interativo geram a evolução da cena condicionada por instruções do usuário. Embora alcancem resultados impressionantes, duas limitações principais persistem. Primeiro, eles falham em explorar plenamente a correspondência entre o movimento da cena dirigido por instruções e a geometria 3D subjacente, o que resulta em instabilidade estrutural sob mudanças de ponto de vista. Segundo, eles facilmente esquecem informações históricas durante a interação multi-etapa, resultando em acúmulo de erros e deriva progressiva na semântica e estrutura da cena. Para resolver essas questões, propomos o MagicWorld, um modelo de mundo de vídeo interativo que integra prioridades geométricas 3D e recuperação histórica. O MagicWorld parte de uma única imagem de cena, emprega ações do usuário para dirigir a evolução dinâmica da cena e sintetiza autoregressivamente cenas contínuas. Introduzimos o Módulo de Geometria 3D Guiada por Ação (AG3D), que constrói uma nuvem de pontos a partir do primeiro quadro de cada interação e da ação correspondente, fornecendo restrições geométricas explícitas para transições de ponto de vista e, assim, melhorando a consistência estrutural. Propomos ainda o mecanismo de Recuperação de Cache Histórico (HCR), que recupera quadros históricos relevantes durante a geração e os injeta como sinais de condicionamento, ajudando o modelo a utilizar informações passadas da cena e mitigar o acúmulo de erros. Resultados experimentais demonstram que o MagicWorld alcança melhorias notáveis na estabilidade e continuidade da cena através das iterações de interação.

English

Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.