Video4Spatial: 컨텍스트 기반 비디오 생성을 통한 시공간 지능 향상
Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
December 2, 2025
저자: Zeqi Xiao, Yiwei Zhao, Lingxiao Li, Yushi Lan, Yu Ning, Rahul Garg, Roshni Cooper, Mohammad H. Taghavi, Xingang Pan
cs.AI
초록
본 연구에서는 비디오 생성 모델이 시각 데이터만을 사용하여 인간 인지의 핵심 능력인 시공간적 지능을 나타낼 수 있는지 조사한다. 이를 위해 비디오 기반 장면 컨텍스트만으로 조건화된 비디오 확산 모델이 복잡한 공간 작업을 수행할 수 있음을 보여주는 Video4Spatial 프레임워크를 제안한다. 두 가지 작업으로 검증을 진행한다: 장면 네비게이션(3D 장면 기하구조와 일관성을 유지하며 카메라 포즈 지시를 따르기)과 객체 그라운딩(의미론적 위치 파악, 지시 따르기, 계획 수립이 필요). 두 작업 모두 깊이 또는 포즈와 같은 보조 양식을 사용하지 않고 오직 비디오만을 입력으로 사용한다. 프레임워크와 데이터 큐레이션에서 간단하지만 효과적인 설계 선택을 통해 Video4Spatial은 비디오 컨텍스트로부터 강력한 공간 이해 능력을 입증한다: 종단간 네비게이션 계획 및 대상 객체 그라운딩 수행, 공간 일관성을 유지하며 카메라 포즈 지시 따르기, 긴 컨텍스트 및 도메인 외 환경으로의 일반화가 가능하다. 이러한 결과를 종합하면, 비디오 생성 모델이 일반적인 시공간 추론 능력으로 나아가는 진전을 이룬다.
English
We investigate whether video generative models can exhibit visuospatial intelligence, a capability central to human cognition, using only visual data. To this end, we present Video4Spatial, a framework showing that video diffusion models conditioned solely on video-based scene context can perform complex spatial tasks. We validate on two tasks: scene navigation - following camera-pose instructions while remaining consistent with 3D geometry of the scene, and object grounding - which requires semantic localization, instruction following, and planning. Both tasks use video-only inputs, without auxiliary modalities such as depth or poses. With simple yet effective design choices in the framework and data curation, Video4Spatial demonstrates strong spatial understanding from video context: it plans navigation and grounds target objects end-to-end, follows camera-pose instructions while maintaining spatial consistency, and generalizes to long contexts and out-of-domain environments. Taken together, these results advance video generative models toward general visuospatial reasoning.