Holi-Spatial : Faire évoluer les flux vidéo vers une intelligence spatiale 3D holistique
Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence
March 8, 2026
Auteurs: Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong
cs.AI
Résumé
La poursuite de l'intelligence spatiale repose fondamentalement sur l'accès à des données 3D à grande échelle et à granularité fine. Cependant, les approches existantes construisent principalement des benchmarks de compréhension spatiale en générant des paires question-réponse (QR) à partir d'un nombre limité de jeux de données annotés manuellement, plutôt que d'annoter systématiquement de nouvelles scènes 3D à grande échelle à partir de données web brutes. En conséquence, leur évolutivité est sévèrement limitée, et les performances des modèles sont en outre entravées par les écarts de domaine inhérents à ces jeux de données étroitement sélectionnés.
Dans ce travail, nous proposons Holi-Spatial, le premier jeu de données multimodal à grande échelle et spatialement conscient entièrement automatisé, construit à partir de vidéos brutes sans intervention humaine, en utilisant le pipeline de curation de données proposé. Holi-Spatial prend en charge une supervision spatiale multi-niveaux, allant de reconstructions 3D par Gaussian Splatting (3DGS) géométriquement précises avec des cartes de profondeur rendues, aux annotations sémantiques au niveau objet et relationnel, ainsi qu'aux paires question-réponse (QR) spatiales correspondantes.
En suivant un pipeline systématique et fondé sur des principes, nous construisons en outre Holi-Spatial-4M, le premier jeu de données sémantique 3D de grande échelle et de haute qualité, contenant 12 000 scènes 3DGS optimisées, 1,3 million de masques 2D, 320 000 bounding boxes 3D, 320 000 légendes d'instances, 1,2 million d'instances d'ancrage 3D et 1,2 million de paires QR spatiales couvrant diverses tâches de raisonnement géométrique, relationnel et sémantique.
Holi-Spatial démontre des performances exceptionnelles en matière de qualité de curation des données, surpassant significativement les méthodes feed-forward et optimisées par scène existantes sur des jeux de données tels que ScanNet, ScanNet++ et DL3DV. De plus, le fine-tuning de modèles vision-langage (VLM) sur des tâches de raisonnement spatial en utilisant ce jeu de données a également conduit à des améliorations substantielles des performances des modèles.
English
The pursuit of spatial intelligence fundamentally relies on access to large-scale, fine-grained 3D data. However, existing approaches predominantly construct spatial understanding benchmarks by generating question-answer (QA) pairs from a limited number of manually annotated datasets, rather than systematically annotating new large-scale 3D scenes from raw web data. As a result, their scalability is severely constrained, and model performance is further hindered by domain gaps inherent in these narrowly curated datasets.
In this work, we propose Holi-Spatial, the first fully automated, large-scale, spatially-aware multimodal dataset, constructed from raw video inputs without human intervention, using the proposed data curation pipeline. Holi-Spatial supports multi-level spatial supervision, ranging from geometrically accurate 3D Gaussian Splatting (3DGS) reconstructions with rendered depth maps to object-level and relational semantic annotations, together with corresponding spatial Question-Answer (QA) pairs.
Following a principled and systematic pipeline, we further construct Holi-Spatial-4M, the first large-scale, high-quality 3D semantic dataset, containing 12K optimized 3DGS scenes, 1.3M 2D masks, 320K 3D bounding boxes, 320K instance captions, 1.2M 3D grounding instances, and 1.2M spatial QA pairs spanning diverse geometric, relational, and semantic reasoning tasks.
Holi-Spatial demonstrates exceptional performance in data curation quality, significantly outperforming existing feed-forward and per-scene optimized methods on datasets such as ScanNet, ScanNet++, and DL3DV. Furthermore, fine-tuning Vision-Language Models (VLMs) on spatial reasoning tasks using this dataset has also led to substantial improvements in model performance.