MagicWorld : Exploration interactive du monde vidéo par la géométrie

Résumé

Les méthodes récentes de modèles de monde vidéo interactif génèrent l'évolution scénique conditionnée par des instructions utilisateur. Bien qu'elles obtiennent des résultats impressionnants, deux limitations majeures persistent. Premièrement, elles ne parviennent pas à exploiter pleinement la correspondance entre le mouvement scénique piloté par les instructions et la géométrie 3D sous-jacente, ce qui entraîne une instabilité structurelle lors des changements de point de vue. Deuxièmement, elles oublient facilement les informations historiques durant les interactions multi-étapes, provoquant une accumulation d'erreurs et une dérive progressive de la sémantique et de la structure scénique. Pour résoudre ces problèmes, nous proposons MagicWorld, un modèle de monde vidéo interactif intégrant des préconnaissances géométriques 3D et une restitution historique. MagicWorld part d'une image scénique unique, utilise les actions utilisateur pour piloter l'évolution dynamique de la scène, et synthétise de manière autorégressive des scènes continues. Nous introduisons le Module de Géométrie 3D Guidé par l'Action (AG3D), qui construit un nuage de points à partir de la première frame de chaque interaction et de l'action correspondante, fournissant des contraintes géométriques explicites pour les transitions de viewpoint et améliorant ainsi la cohérence structurelle. Nous proposons en outre un mécanisme de Récupération par Cache Historique (HCR), qui récupère les frames historiques pertinentes durant la génération et les injecte comme signaux de conditionnement, aidant le modèle à utiliser les informations scéniques passées et à atténuer l'accumulation d'erreurs. Les résultats expérimentaux démontrent que MagicWorld obtient des améliorations notables en stabilité et continuité scéniques à travers les itérations d'interaction.

English

Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.