Holi-Spatial: Преобразование видеопотоков в целостное 3D-пространственное восприятие
Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence
March 8, 2026
Авторы: Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong
cs.AI
Аннотация
Развитие пространственного интеллекта фундаментально зависит от доступа к крупномасштабным, детализированным 3D-данным. Однако существующие подходы в основном создают бенчмарки пространственного понимания путем генерации пар «вопрос-ответ» (QA) из ограниченного числа датасетов с ручной разметкой, вместо систематической аннотации новых крупномасштабных 3D-сцен из необработанных веб-данных. Как следствие, их масштабируемость серьезно ограничена, а производительность моделей дополнительно страдает от доменных разрывов, присущих этим узконаправленным курированным наборам данных.
В данной работе мы представляем Holi-Spatial — первый полностью автоматизированный, крупномасштабный, пространственно-ориентированный мультимодальный датасет, созданный из исходных видеозаписей без вмешательства человека с использованием предложенного конвейера курирования данных. Holi-Spatial поддерживает многоуровневую пространственную разметку: от геометрически точных реконструкций методом 3D Gaussian Splatting (3DGS) с рендеренными картами глубины до объектно-уровневых и реляционных семантических аннотаций, а также соответствующих пар «вопрос-ответ» (QA) на пространственные темы.
Следуя принципиальному и систематическому конвейеру, мы далее создаем Holi-Spatial-4M — первый крупномасштабный высококачественный семантический 3D-датасет, содержащий 12 тыс. оптимизированных 3DGS-сцен, 1,3 млн 2D-масок, 320 тыс. 3D-ограничивающих параллелепипедов, 320 тыс. описаний экземпляров объектов, 1,2 млн примеров 3D-привязки и 1,2 млн пар пространственных QA, охватывающих разнообразные геометрические, реляционные и семантические задачи на рассуждение.
Holi-Spatial демонстрирует исключительное качество курирования данных, значительно превосходя существующие прямые методы и методы оптимизации для отдельных сцен на таких датасетах, как ScanNet, ScanNet++ и DL3DV. Более того, дообучение моделей «визуальный язык» (VLM) на задачах пространственного рассуждения с использованием этого набора данных также привело к существенному улучшению их производительности.
English
The pursuit of spatial intelligence fundamentally relies on access to large-scale, fine-grained 3D data. However, existing approaches predominantly construct spatial understanding benchmarks by generating question-answer (QA) pairs from a limited number of manually annotated datasets, rather than systematically annotating new large-scale 3D scenes from raw web data. As a result, their scalability is severely constrained, and model performance is further hindered by domain gaps inherent in these narrowly curated datasets.
In this work, we propose Holi-Spatial, the first fully automated, large-scale, spatially-aware multimodal dataset, constructed from raw video inputs without human intervention, using the proposed data curation pipeline. Holi-Spatial supports multi-level spatial supervision, ranging from geometrically accurate 3D Gaussian Splatting (3DGS) reconstructions with rendered depth maps to object-level and relational semantic annotations, together with corresponding spatial Question-Answer (QA) pairs.
Following a principled and systematic pipeline, we further construct Holi-Spatial-4M, the first large-scale, high-quality 3D semantic dataset, containing 12K optimized 3DGS scenes, 1.3M 2D masks, 320K 3D bounding boxes, 320K instance captions, 1.2M 3D grounding instances, and 1.2M spatial QA pairs spanning diverse geometric, relational, and semantic reasoning tasks.
Holi-Spatial demonstrates exceptional performance in data curation quality, significantly outperforming existing feed-forward and per-scene optimized methods on datasets such as ScanNet, ScanNet++, and DL3DV. Furthermore, fine-tuning Vision-Language Models (VLMs) on spatial reasoning tasks using this dataset has also led to substantial improvements in model performance.