ChatPaper.aiChatPaper

MagicWorld: Interaktive geometriegetriebene Videowelterkundung

MagicWorld: Interactive Geometry-driven Video World Exploration

November 24, 2025
papers.authors: Guangyuan Li, Siming Zheng, Shuolin Xu, Jinwei Chen, Bo Li, Xiaobin Hu, Lei Zhao, Peng-Tao Jiang
cs.AI

papers.abstract

Aktuelle interaktive Video-Weltmodelle generieren die Szenenentwicklung auf der Grundlage von Benutzeranweisungen. Obwohl sie beeindruckende Ergebnisse erzielen, bestehen zwei wesentliche Einschränkungen. Erstens nutzen sie die Korrespondenz zwischen anweisungsgesteuerter Szenenbewegung und der zugrundeliegenden 3D-Geometrie nicht vollständig aus, was zu struktureller Instabilität bei Blickwinkeländerungen führt. Zweitens vergessen sie historische Informationen während mehrstufiger Interaktionen leicht, was zu Fehlerakkumulation und progressiver Drift in der Szenensemantik und -struktur führt. Um diese Probleme zu adressieren, schlagen wir MagicWorld vor, ein interaktives Video-Weltmodell, das 3D-geometrische Priors und historische Retrieval-Mechanismen integriert. MagicWorld startet mit einem einzelnen Szenenbild, nutzt Benutzeraktionen zur Steuerung der dynamischen Szenenentwicklung und synthetisiert autoregressiv kontinuierliche Szenen. Wir führen das Action-Guided 3D Geometry Module (AG3D) ein, das aus dem ersten Frame jeder Interaktion und der entsprechenden Aktion eine Punktwolke erstellt und explizite geometrische Constraints für Blickwinkelübergänge bereitstellt, wodurch die strukturelle Konsistenz verbessert wird. Weiterhin schlagen wir den History Cache Retrieval (HCR)-Mechanismus vor, der relevante historische Frames während der Generierung abruft und als Konditionierungssignale injiziert, um dem Modell zu helfen, vergangene Szeneninformationen zu nutzen und Fehlerakkumulation zu mildern. Experimentelle Ergebnisse demonstrieren, dass MagicWorld bedeutende Verbesserungen in der Szenenstabilität und -kontinuität über Interaktionsiterationen hinweg erzielt.
English
Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.
PDF173December 1, 2025