ChatPaper.aiChatPaper

Holi-Spatial: Die Entwicklung von Videostreams zu ganzheitlicher 3D-räumlicher Intelligenz

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

March 8, 2026
Autoren: Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong
cs.AI

Zusammenfassung

Die Verfolgung räumlicher Intelligenz ist grundlegend auf den Zugang zu groß angelegten, fein granularen 3D-Daten angewiesen. Bisherige Ansätze konstruieren Verständnis-Benchmarks für räumliche Intelligenz jedoch überwiegend durch die Generierung von Frage-Antwort-Paaren aus einer begrenzten Anzahl manuell annotierter Datensätze, anstatt systematisch neue groß angelegte 3D-Szenen aus Rohdaten des Internets zu annotieren. Infolgedessen ist ihre Skalierbarkeit stark eingeschränkt, und die Modellleistung wird weiterhin durch Domänenlücken beeinträchtigt, die diesen eng kuratierten Datensätzen inhärent sind. In dieser Arbeit stellen wir Holi-Spatial vor, den ersten vollautomatisierten, groß angelegten, raumbewussten multimodalen Datensatz, der ohne menschliches Eingreifen aus Rohvideo-Eingaben mithilfe der vorgeschlagenen Datenkuratierungspipeline erstellt wird. Holi-Spatial unterstützt eine mehrstufige räumliche Supervision, die von geometrisch präzisen 3D-Gaussian-Splatting-Rekonstruktionen mit gerenderten Tiefenkarten über objektbezogene und relationale semantische Annotationen bis hin zu entsprechenden räumlichen Frage-Antwort-Paaren reicht. Gemäß einer prinzipienbasierten und systematischen Pipeline konstruieren wir weiterhin Holi-Spatial-4M, den ersten groß angelegten, hochwertigen 3D-Semantik-Datensatz, der 12.000 optimierte 3DGS-Szenen, 1,3 Millionen 2D-Masken, 320.000 3D-Bounding-Boxes, 320.000 Instanzen-Bildunterschriften, 1,2 Millionen 3D-Grounding-Instanzen und 1,2 Millionen räumliche Frage-Antwort-Paare umfasst, die verschiedene geometrische, relationale und semantische Reasoning-Aufgaben abdecken. Holi-Spatial zeigt eine außergewöhnliche Leistung in Bezug auf die Qualität der Datenkuratierung und übertrifft vorhandene Feed-Forward- und pro-Szene-optimierte Methoden auf Datensätzen wie ScanNet, ScanNet++ und DL3DV erheblich. Darüber hinaus hat das Fine-Tuning von Vision-Language-Models für räumliche Reasoning-Aufgaben mit diesem Datensatz ebenfalls zu erheblichen Verbesserungen der Modellleistung geführt.
English
The pursuit of spatial intelligence fundamentally relies on access to large-scale, fine-grained 3D data. However, existing approaches predominantly construct spatial understanding benchmarks by generating question-answer (QA) pairs from a limited number of manually annotated datasets, rather than systematically annotating new large-scale 3D scenes from raw web data. As a result, their scalability is severely constrained, and model performance is further hindered by domain gaps inherent in these narrowly curated datasets. In this work, we propose Holi-Spatial, the first fully automated, large-scale, spatially-aware multimodal dataset, constructed from raw video inputs without human intervention, using the proposed data curation pipeline. Holi-Spatial supports multi-level spatial supervision, ranging from geometrically accurate 3D Gaussian Splatting (3DGS) reconstructions with rendered depth maps to object-level and relational semantic annotations, together with corresponding spatial Question-Answer (QA) pairs. Following a principled and systematic pipeline, we further construct Holi-Spatial-4M, the first large-scale, high-quality 3D semantic dataset, containing 12K optimized 3DGS scenes, 1.3M 2D masks, 320K 3D bounding boxes, 320K instance captions, 1.2M 3D grounding instances, and 1.2M spatial QA pairs spanning diverse geometric, relational, and semantic reasoning tasks. Holi-Spatial demonstrates exceptional performance in data curation quality, significantly outperforming existing feed-forward and per-scene optimized methods on datasets such as ScanNet, ScanNet++, and DL3DV. Furthermore, fine-tuning Vision-Language Models (VLMs) on spatial reasoning tasks using this dataset has also led to substantial improvements in model performance.
PDF775March 16, 2026