ChatPaper.aiChatPaper

OpenSpatial: Eine prinzipienbasierte Daten-Engine zur Stärkung der räumlichen Intelligenz

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
Autoren: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

Zusammenfassung

Räumliches Verständnis ist ein grundlegender Baustein menschlicher Intelligenz. Dennoch konzentriert sich die aktuelle Forschung überwiegend auf domänenspezifische Datengenerierung, was eine kritische Lücke hinterlässt: das Fehlen einer prinzipienbasierten, quelloffenen Engine, die das Potenzial hochwertiger räumlicher Daten vollständig entfesseln kann. Um diese Lücke zu schließen, erläutern wir die Designprinzipien eines robusten Datengenerierungssystems und stellen OpenSpatial vor – eine quelloffene Daten-Engine, die für hohe Qualität, umfassende Skalierbarkeit, große Aufgabenvielfalt und optimierte Effizienz entwickelt wurde. OpenSpatial verwendet 3D-Bounding-Boxen als grundlegendes Element, um eine umfassende Datenhierarchie über fünf grundlegende Aufgaben hinweg aufzubauen: Räumliche Messung (Spatial Measurement, SM), Räumliche Beziehungen (Spatial Relationship, SR), Kamerawahrnehmung (Camera Perception, CP), Multi-View-Konsistenz (Multi-view Consistency, MC) und szenenbewusstes Schließen (Scene-Aware Reasoning, SAR). Gestützt auf diese skalierbare Infrastruktur, kuratieren wir OpenSpatial-3M, einen umfangreichen Datensatz mit 3 Millionen hochauflösenden Samples. Umfangreiche Evaluationen zeigen, dass vielseitige Modelle, die auf unserem Datensatz trainiert wurden, state-of-the-art Leistung in einer breiten Palette von Benchmarks für räumliches Schließen erreichen. Bemerkenswerterweise zeigt das leistungsstärkste Modell eine substantielle durchschnittliche Verbesserung von 19 Prozent (relativ). Darüber hinaus liefern wir eine systematische Analyse darüber, wie Datenattribute die räumliche Wahrnehmung beeinflussen. Durch die Veröffentlichung sowohl der Engine als auch des 3-Millionen-Sample-Datensatzes als Open Source schaffen wir eine robuste Grundlage, um die zukünftige Forschung im Bereich der räumlichen Intelligenz zu beschleunigen.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF261April 11, 2026