Holi-Spatial: Trasformare i Flussi Video in Intelligenza Spaziale Tridimensionale Olistica

Abstract

La ricerca dell'intelligenza spaziale si basa fondamentalmente sull'accesso a dati 3D su larga scala e ad alta risoluzione. Tuttavia, gli approcci esistenti costruiscono principalmente benchmark di comprensione spaziale generando coppie domanda-risposta (QA) da un numero limitato di dataset annotati manualmente, piuttosto che annotare sistematicamente nuove scene 3D su larga scala a partire da dati grezzi del web. Di conseguenza, la loro scalabilità è fortemente limitata e le prestazioni dei modelli sono ulteriormente ostacolate dai gap di dominio intrinseci in questi dataset strettamente curati. In questo lavoro, proponiamo Holi-Spatial, il primo dataset multimodale su larga scala e consapevole dello spazio completamente automatizzato, costruito a partire da input video grezzi senza intervento umano, utilizzando la pipeline di data curation proposta. Holi-Spatial supporta una supervisione spaziale multi-livello, che spazia dalle ricostruzioni geometricamente accurate con Gaussian Splatting 3D (3DGS) con mappe di depth renderizzate, alle annotazioni semantiche a livello di oggetto e relazionale, insieme alle corrispondenti coppie domanda-risposta (QA) spaziali. Seguendo una pipeline sistematica e basata su principi, costruiamo ulteriormente Holi-Spatial-4M, il primo dataset semantico 3D su larga scala e di alta qualità, contenente 12K scene 3DGS ottimizzate, 1.3M maschere 2D, 320K bounding box 3D, 320K didascalie di istanza, 1.2M istanze di grounding 3D e 1.2M coppie QA spaziali che coprono diverse attività di ragionamento geometrico, relazionale e semantico. Holi-Spatial dimostra prestazioni eccezionali nella qualità della data curation, superando significativamente i metodi feed-forward e ottimizzati per scena esistenti su dataset come ScanNet, ScanNet++ e DL3DV. Inoltre, il fine-tuning di Modelli Visione-Linguaggio (VLM) su compiti di ragionamento spaziale utilizzando questo dataset ha portato anche a sostanziali miglioramenti nelle prestazioni del modello.

English

The pursuit of spatial intelligence fundamentally relies on access to large-scale, fine-grained 3D data. However, existing approaches predominantly construct spatial understanding benchmarks by generating question-answer (QA) pairs from a limited number of manually annotated datasets, rather than systematically annotating new large-scale 3D scenes from raw web data. As a result, their scalability is severely constrained, and model performance is further hindered by domain gaps inherent in these narrowly curated datasets. In this work, we propose Holi-Spatial, the first fully automated, large-scale, spatially-aware multimodal dataset, constructed from raw video inputs without human intervention, using the proposed data curation pipeline. Holi-Spatial supports multi-level spatial supervision, ranging from geometrically accurate 3D Gaussian Splatting (3DGS) reconstructions with rendered depth maps to object-level and relational semantic annotations, together with corresponding spatial Question-Answer (QA) pairs. Following a principled and systematic pipeline, we further construct Holi-Spatial-4M, the first large-scale, high-quality 3D semantic dataset, containing 12K optimized 3DGS scenes, 1.3M 2D masks, 320K 3D bounding boxes, 320K instance captions, 1.2M 3D grounding instances, and 1.2M spatial QA pairs spanning diverse geometric, relational, and semantic reasoning tasks. Holi-Spatial demonstrates exceptional performance in data curation quality, significantly outperforming existing feed-forward and per-scene optimized methods on datasets such as ScanNet, ScanNet++, and DL3DV. Furthermore, fine-tuning Vision-Language Models (VLMs) on spatial reasoning tasks using this dataset has also led to substantial improvements in model performance.

Holi-Spatial: Trasformare i Flussi Video in Intelligenza Spaziale Tridimensionale Olistica

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Abstract

Support