SpatialLM: Addestramento di Modelli Linguistici di Grandi Dimensioni per la Modellizzazione Strutturata di Ambienti Interni
SpatialLM: Training Large Language Models for Structured Indoor Modeling
June 9, 2025
Autori: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI
Abstract
SpatialLM è un modello linguistico di grandi dimensioni progettato per elaborare dati di nuvole di punti 3D e generare output strutturati di comprensione delle scene 3D. Questi output includono elementi architettonici come pareti, porte, finestre e box di oggetti orientati con le loro categorie semantiche. A differenza dei metodi precedenti che sfruttano design di rete specifici per il compito, il nostro modello aderisce all'architettura standard dei modelli linguistici multimodali (LLM) ed è messo a punto direttamente a partire da LLM open-source.
Per addestrare SpatialLM, abbiamo raccolto un ampio dataset sintetico di alta qualità composto dalle nuvole di punti di 12.328 scene interne (54.778 stanze) con annotazioni 3D di riferimento, e abbiamo condotto uno studio accurato su varie decisioni di modellazione e addestramento. Su benchmark pubblici, il nostro modello raggiunge prestazioni all'avanguardia nella stima del layout e risultati competitivi nel rilevamento di oggetti 3D. Con ciò, dimostriamo una via percorribile per potenziare le capacità di comprensione spaziale dei moderni LLM per applicazioni nella realtà aumentata, nella robotica incarnata e altro ancora.
English
SpatialLM is a large language model designed to process 3D point cloud data
and generate structured 3D scene understanding outputs. These outputs include
architectural elements like walls, doors, windows, and oriented object boxes
with their semantic categories. Unlike previous methods which exploit
task-specific network designs, our model adheres to the standard multimodal LLM
architecture and is fine-tuned directly from open-source LLMs.
To train SpatialLM, we collect a large-scale, high-quality synthetic dataset
consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with
ground-truth 3D annotations, and conduct a careful study on various modeling
and training decisions. On public benchmarks, our model gives state-of-the-art
performance in layout estimation and competitive results in 3D object
detection. With that, we show a feasible path for enhancing the spatial
understanding capabilities of modern LLMs for applications in augmented
reality, embodied robotics, and more.