ChatPaper.aiChatPaper

OpenSpatial : Un moteur de données fondé sur des principes pour renforcer l'intelligence spatiale

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
Auteurs: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

Résumé

La compréhension spatiale est une pierre angulaire fondamentale de l'intelligence humaine. Pourtant, les recherches actuelles se concentrent principalement sur la production de données spécifiques à un domaine, laissant un vide critique : l'absence d'un moteur open-source fondé sur des principes, capable de libérer pleinement le potentiel des données spatiales de haute qualité. Pour combler cette lacune, nous élucidons les principes de conception d'un système robuste de génération de données et présentons OpenSpatial — un moteur de données open-source conçu pour une qualité élevée, une extensibilité importante, une grande diversité de tâches et une efficacité optimisée. OpenSpatial adopte les boîtes englobantes 3D comme primitive fondamentale pour construire une hiérarchie de données complète couvrant cinq tâches fondamentales : Mesure Spatiale (MS), Relation Spatiale (RS), Perception de Caméra (PC), Cohérence Multi-vues (CM) et Raisonnement Conscient de la Scène (RCS). En tirant parti de cette infrastructure évolutive, nous constituons OpenSpatial-3M, un jeu de données à grande échelle comprenant 3 millions d'échantillons haute fidélité. Des évaluations approfondies démontrent que les modèles polyvalents entraînés sur notre jeu de données atteignent des performances de pointe sur un large éventail de benchmarks de raisonnement spatial. Notamment, le modèle le plus performant présente une amélioration moyenne substantielle de 19 pour cent en valeur relative. De plus, nous fournissons une analyse systématique de l'influence des attributs des données sur la perception spatiale. En ouvrant en accès libre à la fois le moteur et le jeu de données à l'échelle des 3 millions d'échantillons, nous fournissons une base solide pour accélérer les recherches futures en intelligence spatiale.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF261April 11, 2026