SpatialLM : Entraînement de grands modèles de langage pour la modélisation structurée d’intérieurs
SpatialLM: Training Large Language Models for Structured Indoor Modeling
June 9, 2025
Auteurs: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI
Résumé
SpatialLM est un grand modèle de langage conçu pour traiter des données de nuages de points 3D et générer des sorties structurées de compréhension de scènes 3D. Ces sorties incluent des éléments architecturaux tels que des murs, des portes, des fenêtres, ainsi que des boîtes d'objets orientées avec leurs catégories sémantiques. Contrairement aux méthodes précédentes qui exploitent des architectures de réseaux spécifiques à une tâche, notre modèle suit l'architecture standard des LLM multimodaux et est affiné directement à partir de LLM open source.
Pour entraîner SpatialLM, nous avons collecté un ensemble de données synthétiques à grande échelle et de haute qualité, comprenant des nuages de points de 12 328 scènes intérieures (54 778 pièces) avec des annotations 3D de référence, et avons mené une étude approfondie sur diverses décisions de modélisation et d'entraînement. Sur des benchmarks publics, notre modèle atteint des performances de pointe en estimation de plan et des résultats compétitifs en détection d'objets 3D. Ainsi, nous démontrons une voie réalisable pour améliorer les capacités de compréhension spatiale des LLM modernes, avec des applications en réalité augmentée, robotique incarnée, et bien plus encore.
English
SpatialLM is a large language model designed to process 3D point cloud data
and generate structured 3D scene understanding outputs. These outputs include
architectural elements like walls, doors, windows, and oriented object boxes
with their semantic categories. Unlike previous methods which exploit
task-specific network designs, our model adheres to the standard multimodal LLM
architecture and is fine-tuned directly from open-source LLMs.
To train SpatialLM, we collect a large-scale, high-quality synthetic dataset
consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with
ground-truth 3D annotations, and conduct a careful study on various modeling
and training decisions. On public benchmarks, our model gives state-of-the-art
performance in layout estimation and competitive results in 3D object
detection. With that, we show a feasible path for enhancing the spatial
understanding capabilities of modern LLMs for applications in augmented
reality, embodied robotics, and more.