OpenSpatial:空間知能を強化するための原理に基づいたデータエンジン
OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence
April 8, 2026
著者: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI
要旨
空間理解は人間レベルの知能における基本的な基盤である。しかしながら、現在の研究はドメイン特化的なデータ生成に主眼が置かれており、高品質な空間データの可能性を十分に引き出すための原理に基づいたオープンソースのエンジンが欠如するという重大な空白が生じている。この隔たりを埋めるため、我々は堅牢なデータ生成システムの設計原則を明らかにし、高品質、広範な拡張性、多様なタスク対応、最適化された効率性を追求して設計されたオープンソースのデータエンジン「OpenSpatial」を提案する。OpenSpatialは3Dバウンディングボックスを基本プリミティブとして採用し、空間計測(SM)、空間関係(SR)、カメラ知覚(CP)、マルチビュー一貫性(MC)、シーン認識推論(SAR)という5つの基礎タスクにわたる包括的なデータ階層を構築する。この拡張可能なインフラを活用し、300万の高精細サンプルからなる大規模データセット「OpenSpatial-3M」を構築した。広範な評価により、本データセットで学習した汎用モデルが、様々な空間推論ベンチマークにおいて最先端の性能を達成することを実証した。特に、最高性能のモデルは平均で19%(相対値)の大幅な改善を示した。さらに、データ属性が空間知覚に与える影響について体系的な分析を提供する。エンジンと300万規模のデータセットの両方をオープンソース化することで、空間知能における将来の研究を加速させる強固な基盤を提供する。
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.