ChatPaper.aiChatPaper

OpenSpatial: 공간 지능 활성화를 위한 원칙 기반 데이터 엔진

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
저자: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

초록

공간 이해는 인간 수준 지능의 근본적인 초석이다. 그럼에도 불구하고 현재 연구는 주로 도메인 특화 데이터 생산에 집중하여, 고품질 공간 데이터의 잠재력을 완전히 발휘할 수 있는 원칙적인 오픈소스 엔진의 부재라는 결정적 공백을 남기고 있다. 이러한 격차를 해소하기 위해 우리는 강력한 데이터 생성 시스템의 설계 원칙을 밝히고, 고품질, 광범위한 확장성, 다양한 과제 다양성, 최적화된 효율성을 위해 설계된 오픈소스 데이터 엔진인 OpenSpatial을 소개한다. OpenSpatial은 3D 바운딩 박스를 기본 요소로 채택하여 공간 측정(SM), 공간 관계(SR), 카메라 인식(CP), 다중 뷰 일관성(MC), 상황 인식 추론(SAR)이라는 다섯 가지 기초 과제에 걸친 포괄적인 데이터 계층 구조를 구축한다. 이 확장 가능한 인프라를 활용하여 우리는 300만 개의 고충실도 샘플로 구성된 대규모 데이터셋인 OpenSpatial-3M을 구축했다. 광범위한 평가를 통해 우리 데이터셋으로 훈련된 다목적 모델이 다양한 공간 추론 벤치마크에서 최첨단 성능을 달성함을 입증했다. 특히 최고 성능 모델은 평균 19%의 상당한 상대적 향상을 보였다. 더 나아가 데이터 속성이 공간 인식에 미치는 영향에 대한 체계적인 분석을 제공한다. 엔진과 300만 규모 데이터셋을 모두 오픈소스로 공개함으로써, 우리는 공간 지능 분야의 미래 연구 가속화를 위한 견고한 기반을 마련한다.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF261April 11, 2026