ChatPaper.aiChatPaper

OpenSpatial: Een Principelieel Dataplatform voor het Bevorderen van Ruimtelijke Intelligentie

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
Auteurs: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

Samenvatting

Ruimtelijk begrip is een fundamentele hoeksteen van menselijk niveau intelligentie. Desalniettemin richt huidig onderzoek zich voornamelijk op domeinspecifieke dataproductie, wat een kritieke leemte achterlaat: het ontbreken van een principieel, open-source systeem dat in staat is de potentie van hoogwaardige ruimtelijke data volledig te benutten. Om deze kloof te overbruggen, lichten we de ontwerpprincipes van een robuust datageneratiesysteem toe en introduceren we OpenSpatial – een open-source data-engine ontworpen voor hoge kwaliteit, uitgebreide schaalbaarheid, brede taakdiversiteit en geoptimaliseerde efficiëntie. OpenSpatial hanteert 3D-boundingboxes als fundamentele primitief om een uitgebreide datahiërarchie op te bouwen voor vijf fundamentele taken: Ruimtelijke Meting (SM), Ruimtelijke Relaties (SR), Cameraperceptie (CP), Multi-view Consistentie (MC) en Scène-bewust Redeneren (SAR). Gebruikmakend van deze schaalbare infrastructuur, hebben we OpenSpatial-3M samengesteld, een grootschalige dataset bestaande uit 3 miljoen hoogwaardige samples. Uitgebreide evaluaties tonen aan dat veelzijdige modellen die op onze dataset zijn getraind, state-of-the-art prestaties bereiken op een breed spectrum van ruimtelijke redeneerbenchmarks. Opmerkelijk is dat het best presterende model een substantiële gemiddelde verbetering van 19 procent laat zien, relatief gezien. Verder bieden we een systematische analyse van hoe data-attributen ruimtelijke perceptie beïnvloeden. Door zowel de engine als de dataset op 3M-schaal open source te maken, bieden we een robuuste basis om toekomstig onderzoek in ruimtelijke intelligentie te versnellen.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF332April 13, 2026