ChatPaper.aiChatPaper

OpenSpatial: Un Motor de Datos Fundamentado para Potenciar la Inteligencia Espacial

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
Autores: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

Resumen

La comprensión espacial es un pilar fundamental de la inteligencia a nivel humano. Sin embargo, la investigación actual se centra predominantemente en la producción de datos específicos de dominio, dejando un vacío crítico: la ausencia de un motor de código abierto y basado en principios capaz de liberar todo el potencial de los datos espaciales de alta calidad. Para cerrar esta brecha, elucidamos los principios de diseño de un sistema robusto de generación de datos e introducimos OpenSpatial: un motor de datos de código abierto diseñado para alta calidad, escalabilidad extensa, amplia diversidad de tareas y eficiencia optimizada. OpenSpatial adopta las cajas delimitadoras 3D como primitiva fundamental para construir una jerarquía de datos integral que abarca cinco tareas fundamentales: Medición Espacial (SM), Relación Espacial (SR), Percepción de Cámara (CP), Consistencia Multi-vista (MC) y Razonamiento Consciente de la Escena (SAR). Aprovechando esta infraestructura escalable, hemos creado OpenSpatial-3M, un conjunto de datos a gran escala que comprende 3 millones de muestras de alta fidelidad. Evaluaciones exhaustivas demuestran que los modelos versátiles entrenados con nuestro conjunto de datos logran un rendimiento de vanguardia en una amplia gama de benchmarks de razonamiento espacial. Notablemente, el modelo de mejor rendimiento exhibe una mejora promedio sustancial del 19 por ciento, en términos relativos. Además, proporcionamos un análisis sistemático de cómo los atributos de los datos influyen en la percepción espacial. Al liberar como código abierto tanto el motor como el conjunto de datos a escala de 3 millones, proporcionamos una base sólida para acelerar la investigación futura en inteligencia espacial.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF261April 11, 2026