MagicWorld: Esplorazione Interattiva di Mondi Video Guidata dalla Geometria

Abstract

I recenti metodi di modelli video interattivi generano l'evoluzione della scena condizionata dalle istruzioni dell'utente. Sebbene raggiungano risultati impressionanti, permangono due limitazioni chiave. In primo luogo, non sfruttano appieno la corrispondenza tra il movimento della scena guidato dalle istruzioni e la geometria 3D sottostante, il che si traduce in instabilità strutturale sotto cambiamenti del punto di vista. In secondo luogo, dimenticano facilmente le informazioni storiche durante l'interazione a più fasi, causando un accumulo di errori e una deriva progressiva nella semantica e nella struttura della scena. Per affrontare questi problemi, proponiamo MagicWorld, un modello video interattivo che integra prior geometrici 3D e recupero storico. MagicWorld parte da una singola immagine di scena, utilizza le azioni dell'utente per guidare l'evoluzione dinamica della scena e sintetizza autoregressivamente scene continue. Introduciamo il Modulo di Geometria 3D Guidato dall'Azione (AG3D), che costruisce una nuvola di punti dal primo fotogramma di ogni interazione e dall'azione corrispondente, fornendo vincoli geometrici espliciti per le transizioni del punto di vista e migliorando così la coerenza strutturale. Proponiamo inoltre il meccanismo di Recupero dalla Cache Storica (HCR), che recupera fotogrammi storici rilevanti durante la generazione e li inietta come segnali di condizionamento, aiutando il modello a utilizzare le informazioni passate della scena e a mitigare l'accumulo di errori. I risultati sperimentali dimostrano che MagicWorld raggiunge miglioramenti significativi nella stabilità e continuità della scena attraverso le iterazioni di interazione.

English

Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.

MagicWorld: Esplorazione Interattiva di Mondi Video Guidata dalla Geometria

MagicWorld: Interactive Geometry-driven Video World Exploration

Abstract

Support