Holi-Spatial: Transformando Fluxos de Vídeo em Inteligência Espacial 3D Holística
Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence
March 8, 2026
Autores: Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong
cs.AI
Resumo
A busca por inteligência espacial depende fundamentalmente do acesso a dados 3D em larga escala e de alta granularidade. No entanto, as abordagens existentes constroem predominantemente benchmarks de compreensão espacial gerando pares de pergunta-resposta (QA) a partir de um número limitado de conjuntos de dados anotados manualmente, em vez de anotar sistematicamente novas cenas 3D em larga escala a partir de dados brutos da web. Como resultado, sua escalabilidade é severamente limitada, e o desempenho do modelo é ainda mais prejudicado por lacunas de domínio inerentes a esses conjuntos de dados restritos.
Neste trabalho, propomos o Holi-Spatial, o primeiro conjunto de dados multimodal, em larga escala e com consciência espacial, totalmente automatizado, construído a partir de vídeos brutos sem intervenção humana, utilizando o pipeline de curadoria de dados proposto. O Holi-Spatial suporta supervisão espacial multi-nível, variando desde reconstruções geometricamente precisas por 3D Gaussian Splatting (3DGS) com mapas de profundidade renderizados até anotações semânticas a nível de objeto e relacional, juntamente com os correspondentes pares de Pergunta-Resposta (QA) espaciais.
Seguindo um pipeline sistemático e fundamentado, construímos ainda o Holi-Spatial-4M, o primeiro conjunto de dados semântico 3D de grande escala e alta qualidade, contendo 12 mil cenas 3DGS otimizadas, 1,3 milhão de máscaras 2D, 320 mil caixas delimitadoras 3D, 320 mil legendas de instâncias, 1,2 milhão de instâncias de ancoragem 3D e 1,2 milhão de pares de QA espaciais abrangendo diversas tarefas de raciocínio geométrico, relacional e semântico.
O Holi-Spatial demonstra um desempenho excepcional na qualidade da curadoria de dados, superando significativamente os métodos *feed-forward* e otimizados por cena existentes em conjuntos de dados como ScanNet, ScanNet++ e DL3DV. Além disso, o ajuste fino de Modelos de Visão e Linguagem (VLMs) para tarefas de raciocínio espacial usando este conjunto de dados também resultou em melhorias substanciais no desempenho do modelo.
English
The pursuit of spatial intelligence fundamentally relies on access to large-scale, fine-grained 3D data. However, existing approaches predominantly construct spatial understanding benchmarks by generating question-answer (QA) pairs from a limited number of manually annotated datasets, rather than systematically annotating new large-scale 3D scenes from raw web data. As a result, their scalability is severely constrained, and model performance is further hindered by domain gaps inherent in these narrowly curated datasets.
In this work, we propose Holi-Spatial, the first fully automated, large-scale, spatially-aware multimodal dataset, constructed from raw video inputs without human intervention, using the proposed data curation pipeline. Holi-Spatial supports multi-level spatial supervision, ranging from geometrically accurate 3D Gaussian Splatting (3DGS) reconstructions with rendered depth maps to object-level and relational semantic annotations, together with corresponding spatial Question-Answer (QA) pairs.
Following a principled and systematic pipeline, we further construct Holi-Spatial-4M, the first large-scale, high-quality 3D semantic dataset, containing 12K optimized 3DGS scenes, 1.3M 2D masks, 320K 3D bounding boxes, 320K instance captions, 1.2M 3D grounding instances, and 1.2M spatial QA pairs spanning diverse geometric, relational, and semantic reasoning tasks.
Holi-Spatial demonstrates exceptional performance in data curation quality, significantly outperforming existing feed-forward and per-scene optimized methods on datasets such as ScanNet, ScanNet++, and DL3DV. Furthermore, fine-tuning Vision-Language Models (VLMs) on spatial reasoning tasks using this dataset has also led to substantial improvements in model performance.