MagicWorld: Интерактивное исследование видеомира на основе геометрии
MagicWorld: Interactive Geometry-driven Video World Exploration
November 24, 2025
Авторы: Guangyuan Li, Siming Zheng, Shuolin Xu, Jinwei Chen, Bo Li, Xiaobin Hu, Lei Zhao, Peng-Tao Jiang
cs.AI
Аннотация
Современные интерактивные модели видео-мира генерируют эволюцию сцены на основе пользовательских инструкций. Несмотря на впечатляющие результаты, сохраняются два ключевых ограничения. Во-первых, они не полностью используют соответствие между движением сцены, управляемым инструкциями, и лежащей в основе 3D-геометрией, что приводит к структурной нестабильности при изменении точки обзора. Во-вторых, они легко забывают историческую информацию в процессе многошагового взаимодействия, что приводит к накоплению ошибок и прогрессирующему дрейфу семантики и структуры сцены. Для решения этих проблем мы предлагаем MagicWorld — интерактивную модель видео-мира, интегрирующую 3D-геометрические априорные знания и исторический поиск. MagicWorld начинает с единого изображения сцены, использует пользовательские действия для управления динамической эволюцией сцены и авторегрессивно синтезирует непрерывные сцены. Мы представляем Модуль 3D-геометрии с управлением действиями (AG3D), который строит облако точек из первого кадра каждого взаимодействия и соответствующего действия, обеспечивая явные геометрические ограничения для переходов между точками обзора и тем самым повышая структурную согласованность. Дополнительно мы предлагаем механизм поиска по историческому кешу (HCR), который извлекает релевантные исторические кадры в процессе генерации и инжектирует их в качестве conditioning-сигналов, помогая модели использовать информацию о прошлых сценах и снижать накопление ошибок. Результаты экспериментов демонстрируют, что MagicWorld достигает значительного улучшения стабильности и непрерывности сцены на протяжении итераций взаимодействия.
English
Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.