ChatPaper.aiChatPaper

Holi-Spatial: Transformación de Flujos de Video en Inteligencia Espacial 3D Holística

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

March 8, 2026
Autores: Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong
cs.AI

Resumen

La búsqueda de inteligencia espacial depende fundamentalmente del acceso a datos 3D a gran escala y de grano fino. Sin embargo, los enfoques existentes construyen principalmente puntos de referencia de comprensión espacial generando pares de preguntas y respuestas (QA) a partir de un número limitado de conjuntos de datos anotados manualmente, en lugar de anotar sistemáticamente nuevas escenas 3D a gran escala a partir de datos web en bruto. Como resultado, su escalabilidad se ve severamente limitada, y el rendimiento del modelo se ve además obstaculizado por las brechas de dominio inherentes a estos conjuntos de datos curados de manera restringida. En este trabajo, proponemos Holi-Spatial, el primer conjunto de datos multimodal a gran escala y con conciencia espacial, completamente automatizado, construido a partir de entradas de vídeo en bruto sin intervención humana, utilizando la pipeline de curación de datos propuesta. Holi-Spatial admite supervisión espacial multinivel, que abarca desde reconstrucciones geométricamente precisas mediante Gaussian Splatting 3D (3DGS) con mapas de profundidad renderizados, hasta anotaciones semánticas a nivel de objeto y relacionales, junto con los correspondientes pares de preguntas y respuestas (QA) espaciales. Siguiendo una pipeline sistemática y basada en principios, construimos además Holi-Spatial-4M, el primer conjunto de datos semántico 3D a gran escala y de alta calidad, que contiene 12K escenas 3DGS optimizadas, 1.3M máscaras 2D, 320K cajas delimitadoras 3D, 320K descripciones de instancias, 1.2M instancias de grounding 3D y 1.2M pares de QA espaciales que abarcan diversas tareas de razonamiento geométrico, relacional y semántico. Holi-Spatial demuestra un rendimiento excepcional en la calidad de la curación de datos, superando significativamente a los métodos feed-forward y optimizados por escena existentes en conjuntos de datos como ScanNet, ScanNet++ y DL3DV. Además, el ajuste fino de Modelos de Visión y Lenguaje (VLMs) en tareas de razonamiento espacial utilizando este conjunto de datos también ha conducido a mejoras sustanciales en el rendimiento del modelo.
English
The pursuit of spatial intelligence fundamentally relies on access to large-scale, fine-grained 3D data. However, existing approaches predominantly construct spatial understanding benchmarks by generating question-answer (QA) pairs from a limited number of manually annotated datasets, rather than systematically annotating new large-scale 3D scenes from raw web data. As a result, their scalability is severely constrained, and model performance is further hindered by domain gaps inherent in these narrowly curated datasets. In this work, we propose Holi-Spatial, the first fully automated, large-scale, spatially-aware multimodal dataset, constructed from raw video inputs without human intervention, using the proposed data curation pipeline. Holi-Spatial supports multi-level spatial supervision, ranging from geometrically accurate 3D Gaussian Splatting (3DGS) reconstructions with rendered depth maps to object-level and relational semantic annotations, together with corresponding spatial Question-Answer (QA) pairs. Following a principled and systematic pipeline, we further construct Holi-Spatial-4M, the first large-scale, high-quality 3D semantic dataset, containing 12K optimized 3DGS scenes, 1.3M 2D masks, 320K 3D bounding boxes, 320K instance captions, 1.2M 3D grounding instances, and 1.2M spatial QA pairs spanning diverse geometric, relational, and semantic reasoning tasks. Holi-Spatial demonstrates exceptional performance in data curation quality, significantly outperforming existing feed-forward and per-scene optimized methods on datasets such as ScanNet, ScanNet++, and DL3DV. Furthermore, fine-tuning Vision-Language Models (VLMs) on spatial reasoning tasks using this dataset has also led to substantial improvements in model performance.
PDF775March 16, 2026