SpatialLM: Training großer Sprachmodelle für strukturierte Innenraummodellierung
SpatialLM: Training Large Language Models for Structured Indoor Modeling
June 9, 2025
Autoren: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI
Zusammenfassung
SpatialLM ist ein großes Sprachmodell, das entwickelt wurde, um 3D-Punktwolkendaten zu verarbeiten und strukturierte 3D-Szenenverständnis-Ausgaben zu generieren. Diese Ausgaben umfassen architektonische Elemente wie Wände, Türen, Fenster sowie orientierte Objektboxen mit ihren semantischen Kategorien. Im Gegensatz zu früheren Methoden, die auf aufgabenspezifische Netzwerkdesigns setzen, folgt unser Modell der standardmäßigen multimodalen LLM-Architektur und wird direkt aus Open-Source-LLMs feinabgestimmt.
Um SpatialLM zu trainieren, haben wir einen groß angelegten, hochwertigen synthetischen Datensatz gesammelt, der die Punktwolken von 12.328 Innenraumszenen (54.778 Räume) mit Ground-Truth-3D-Annotationen enthält, und eine sorgfältige Studie zu verschiedenen Modellierungs- und Trainingsentscheidungen durchgeführt. Auf öffentlichen Benchmarks erzielt unser Modell Spitzenleistungen in der Layout-Schätzung und wettbewerbsfähige Ergebnisse in der 3D-Objekterkennung. Damit zeigen wir einen praktikablen Weg auf, um die räumlichen Verständnisfähigkeiten moderner LLMs für Anwendungen in Augmented Reality, embodied Robotics und mehr zu erweitern.
English
SpatialLM is a large language model designed to process 3D point cloud data
and generate structured 3D scene understanding outputs. These outputs include
architectural elements like walls, doors, windows, and oriented object boxes
with their semantic categories. Unlike previous methods which exploit
task-specific network designs, our model adheres to the standard multimodal LLM
architecture and is fine-tuned directly from open-source LLMs.
To train SpatialLM, we collect a large-scale, high-quality synthetic dataset
consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with
ground-truth 3D annotations, and conduct a careful study on various modeling
and training decisions. On public benchmarks, our model gives state-of-the-art
performance in layout estimation and competitive results in 3D object
detection. With that, we show a feasible path for enhancing the spatial
understanding capabilities of modern LLMs for applications in augmented
reality, embodied robotics, and more.