ChatPaper.aiChatPaper

OpenSpatial: Принципиальный механизм данных для расширения возможностей пространственного интеллекта

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

April 8, 2026
Авторы: Jianhui Liu, Haoze Sun, Wenbo Li, Yanbing Zhang, Rui Yang, Zhiliang Zhu, Yijun Yang, Shenghe Zheng, Nan Jiang, Jiaxiu Jiang, Haoyang Huang, Tien-Tsin Wong, Nan Duan, Xiaojuan Qi
cs.AI

Аннотация

Пространственное понимание является фундаментальной основой интеллекта человеческого уровня. Тем не менее, современные исследования в основном сосредоточены на создании данных для конкретных областей, оставляя критический пробел: отсутствие принципиального, открытого движка, способного полностью раскрыть потенциал высококачественных пространственных данных. Чтобы заполнить этот пробел, мы излагаем принципы проектирования надежной системы генерации данных и представляем OpenSpatial — открытый движок данных, созданный для обеспечения высокого качества, широкой масштабируемости, разнообразия задач и оптимизированной эффективности. OpenSpatial использует трехмерные ограничивающие параллелепипеды в качестве базового примитива для построения всеобъемлющей иерархии данных, охватывающей пять фундаментальных задач: пространственные измерения (Spatial Measurement, SM), пространственные отношения (Spatial Relationship, SR), восприятие камеры (Camera Perception, CP), согласованность между видами (Multi-view Consistency, MC) и контекстное рассуждение (Scene-Aware Reasoning, SAR). Используя эту масштабируемую инфраструктуру, мы создали OpenSpatial-3M — масштабный набор данных, содержащий 3 миллиона высокоточных примеров. Всесторонние оценки демонстрируют, что универсальные модели, обученные на нашем наборе данных, достигают передовых результатов в широком спектре тестов пространственного мышления. Примечательно, что лучшая модель демонстрирует существенное среднее улучшение на 19 процентов в относительном выражении. Кроме того, мы предоставляем систематический анализ того, как атрибуты данных влияют на пространственное восприятие. Открывая исходный код движка и набор данных масштаба 3M, мы закладываем прочную основу для ускорения будущих исследований в области пространственного интеллекта.
English
Spatial understanding is a fundamental cornerstone of human-level intelligence. Nonetheless, current research predominantly focuses on domain-specific data production, leaving a critical void: the absence of a principled, open-source engine capable of fully unleashing the potential of high-quality spatial data. To bridge this gap, we elucidate the design principles of a robust data generation system and introduce OpenSpatial -- an open-source data engine engineered for high quality, extensive scalability, broad task diversity, and optimized efficiency. OpenSpatial adopts 3D bounding boxes as the fundamental primitive to construct a comprehensive data hierarchy across five foundational tasks: Spatial Measurement (SM), Spatial Relationship (SR), Camera Perception (CP), Multi-view Consistency (MC), and Scene-Aware Reasoning (SAR). Leveraging this scalable infrastructure, we curate OpenSpatial-3M, a large-scale dataset comprising 3 million high-fidelity samples. Extensive evaluations demonstrate that versatile models trained on our dataset achieve state-of-the-art performance across a wide spectrum of spatial reasoning benchmarks. Notably, the best-performing model exhibits a substantial average improvement of 19 percent, relatively. Furthermore, we provide a systematic analysis of how data attributes influence spatial perception. By open-sourcing both the engine and the 3M-scale dataset, we provide a robust foundation to accelerate future research in spatial intelligence.
PDF261April 11, 2026