MagicWorld: 기하학적 요소에 기반한 상호작용형 비디오 월드 탐색
MagicWorld: Interactive Geometry-driven Video World Exploration
November 24, 2025
저자: Guangyuan Li, Siming Zheng, Shuolin Xu, Jinwei Chen, Bo Li, Xiaobin Hu, Lei Zhao, Peng-Tao Jiang
cs.AI
초록
최근의 대화형 비디오 세계 모델 방법론은 사용자 지시에 조건화된 장면 진화를 생성합니다. 이러한 방법론은 인상적인 결과를 달성했지만, 두 가지 주요 한계점이 여전히 존재합니다. 첫째, 지시 기반 장면 운동과 기반이 되는 3D 기하학 간의 대응 관계를 충분히 활용하지 못해 시점 변경 하에서 구조적 불안정성이 발생합니다. 둘째, 다단계 상호작용 과정에서 역사적 정보를 쉽게 망각하여 오류 누적 및 장면 의미론과 구조의 점진적 변이(Drift)가 발생합니다. 이러한 문제를 해결하기 위해 우리는 3D 기하학적 사전 지식(Prior)과 역사적 검색을 통합한 대화형 비디오 세계 모델인 MagicWorld를 제안합니다. MagicWorld는 단일 장면 이미지에서 시작하여 사용자 행동을 통해 동적 장면 진화를 구동하고, 자기회귀적으로 연속적인 장면을 합성합니다. 우리는 각 상호작용의 첫 번째 프레임과 해당 행동으로부터 포인트 클라우드를 구축하는 행동 유도 3D 기하학 모듈(AG3D)을 도입하여 시점 전환을 위한 명시적인 기하학적 제약을 제공함으로써 구조적 일관성을 향상시킵니다. 또한 생성 과정에서 관련 역사 프레임을 검색하여 조건화 신호로 주입하는 역사 캐시 검색(HCR) 메커니즘을 제안하며, 이를 통해 모델이 과거 장면 정보를 활용하고 오류 누적을 완화하도록 돕습니다. 실험 결과는 MagicWorld가 상호작용 반복에 걸쳐 장면 안정성과 연속성에서 뚜렷한 향상을 달성함을 입증합니다.
English
Recent interactive video world model methods generate scene evolution conditioned on user instructions. Although they achieve impressive results, two key limitations remain. First, they fail to fully exploit the correspondence between instruction-driven scene motion and the underlying 3D geometry, which results in structural instability under viewpoint changes. Second, they easily forget historical information during multi-step interaction, resulting in error accumulation and progressive drift in scene semantics and structure. To address these issues, we propose MagicWorld, an interactive video world model that integrates 3D geometric priors and historical retrieval. MagicWorld starts from a single scene image, employs user actions to drive dynamic scene evolution, and autoregressively synthesizes continuous scenes. We introduce the Action-Guided 3D Geometry Module (AG3D), which constructs a point cloud from the first frame of each interaction and the corresponding action, providing explicit geometric constraints for viewpoint transitions and thereby improving structural consistency. We further propose History Cache Retrieval (HCR) mechanism, which retrieves relevant historical frames during generation and injects them as conditioning signals, helping the model utilize past scene information and mitigate error accumulation. Experimental results demonstrate that MagicWorld achieves notable improvements in scene stability and continuity across interaction iterations.