ChatPaper.aiChatPaper

OpenSpatial: Un motore di dati strutturato per potenziare l'intelligenza spaziale

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
Autori: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

Abstract

La comprensione spaziale è un pilastro fondamentale dell'intelligenza di livello umano. Tuttavia, la ricerca attuale si concentra prevalentemente sulla produzione di dati specifici per dominio, lasciando un vuoto critico: l'assenza di un motore open-source e basato su principi in grado di liberare appieno il potenziale dei dati spaziali di alta qualità. Per colmare questa lacuna, illustriamo i principi di progettazione di un sistema robusto per la generazione di dati e introduciamo OpenSpatial – un motore di dati open-source progettato per alta qualità, elevata scalabilità, ampia diversità di compiti ed efficienza ottimizzata. OpenSpatial adotta i bounding box 3D come primitiva fondamentale per costruire una gerarchia di dati completa su cinque compiti fondamentali: Misurazione Spaziale (SM), Relazione Spaziale (SR), Percezione della Fotocamera (CP), Coerenza Multi-vista (MC) e Ragionamento Consapevole della Scena (SAR). Sfruttando questa infrastruttura scalabile, abbiamo curato OpenSpatial-3M, un dataset su larga scala che comprende 3 milioni di campioni ad alta fedeltà. Valutazioni estensive dimostrano che modelli versatili addestrati sul nostro dataset raggiungono prestazioni all'avanguardia su un'ampia gamma di benchmark di ragionamento spaziale. In particolare, il modello con le migliori prestazioni mostra un sostanziale miglioramento medio relativo del 19 percento. Inoltre, forniamo un'analisi sistematica di come gli attributi dei dati influenzino la percezione spaziale. Rendendo open-source sia il motore che il dataset su scala 3M, forniamo una solida base per accelerare la futura ricerca sull'intelligenza spaziale.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF332April 13, 2026