ChatPaper.aiChatPaper

OpenSpatial: Uma Plataforma de Dados Fundamentada para Capacitar a Inteligência Espacial

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
Autores: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

Resumo

A compreensão espacial é um pilar fundamental da inteligência de nível humano. No entanto, a pesquisa atual concentra-se predominantemente na produção de dados específicos de domínio, deixando um vazio crítico: a ausência de um mecanismo de código aberto e baseado em princípios, capaz de libertar todo o potencial dos dados espaciais de alta qualidade. Para colmatar esta lacuna, elucidamos os princípios de conceção de um sistema robusto de geração de dados e introduzimos o OpenSpatial – um motor de dados de código aberto, projetado para alta qualidade, escalabilidade extensiva, diversidade ampla de tarefas e eficiência otimizada. O OpenSpatial adota *bounding boxes* 3D como primitiva fundamental para construir uma hierarquia de dados abrangente em cinco tarefas fundamentais: Medição Espacial (ME), Relação Espacial (RE), Perceção de Câmara (PC), Consistência Multi-vista (CM) e Raciocínio Consciente da Cena (RCC). Aproveitando esta infraestrutura escalável, criámos o OpenSpatial-3M, um conjunto de dados em larga escala que compreende 3 milhões de amostras de alta fidelidade. Avaliações extensivas demonstram que modelos versáteis treinados no nosso conjunto de dados alcançam desempenho de ponta numa ampla gama de *benchmarks* de raciocínio espacial. Notablemente, o modelo de melhor desempenho exibe uma melhoria média substancial de 19 por cento, em termos relativos. Adicionalmente, fornecemos uma análise sistemática de como os atributos dos dados influenciam a perceção espacial. Ao disponibilizar em código aberto tanto o motor como o conjunto de dados à escala de 3 milhões, fornecemos uma base robusta para acelerar a pesquisa futura em inteligência espacial.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF332April 13, 2026