MagicWorld: Exploración Interactiva de Mundos de Video Guiada por Geometría

Resumen

Los métodos recientes de modelos de mundo en video interactivo generan la evolución de escenas condicionada por instrucciones del usuario. Aunque logran resultados impresionantes, persisten dos limitaciones clave. Primero, no aprovechan completamente la correspondencia entre el movimiento de la escena impulsado por instrucciones y la geometría 3D subyacente, lo que resulta en inestabilidad estructural bajo cambios de punto de vista. Segundo, olvidan fácilmente la información histórica durante la interacción multi-paso, resultando en acumulación de errores y deriva progresiva en la semántica y estructura de la escena. Para abordar estos problemas, proponemos MagicWorld, un modelo de mundo en video interactivo que integra priores geométricos 3D y recuperación histórica. MagicWorld comienza desde una única imagen de escena, emplea acciones del usuario para impulsar la evolución dinámica de la escena y sintetiza autoregresivamente escenas continuas. Introducimos el Módulo de Geometría 3D Guiada por Acción (AG3D), que construye una nube de puntos desde el primer fotograma de cada interacción y la acción correspondiente, proporcionando restricciones geométricas explícitas para transiciones de viewpoint y mejorando así la consistencia estructural. Además, proponemos el mecanismo de Recuperación de Caché Histórico (HCR), que recupera fotogramas históricos relevantes durante la generación y los inyecta como señales de condicionamiento, ayudando al modelo a utilizar información pasada de la escena y mitigar la acumulación de errores. Los resultados experimentales demuestran que MagicWorld logra mejoras notables en estabilidad y continuidad de la escena a través de iteraciones de interacción.

English

Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.