ChatPaper.aiChatPaper

SpatialLM : Entraînement de grands modèles de langage pour la modélisation structurée d’intérieurs

SpatialLM: Training Large Language Models for Structured Indoor Modeling

June 9, 2025
Auteurs: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI

Résumé

SpatialLM est un grand modèle de langage conçu pour traiter des données de nuages de points 3D et générer des sorties structurées de compréhension de scènes 3D. Ces sorties incluent des éléments architecturaux tels que des murs, des portes, des fenêtres, ainsi que des boîtes d'objets orientées avec leurs catégories sémantiques. Contrairement aux méthodes précédentes qui exploitent des architectures de réseaux spécifiques à une tâche, notre modèle suit l'architecture standard des LLM multimodaux et est affiné directement à partir de LLM open source. Pour entraîner SpatialLM, nous avons collecté un ensemble de données synthétiques à grande échelle et de haute qualité, comprenant des nuages de points de 12 328 scènes intérieures (54 778 pièces) avec des annotations 3D de référence, et avons mené une étude approfondie sur diverses décisions de modélisation et d'entraînement. Sur des benchmarks publics, notre modèle atteint des performances de pointe en estimation de plan et des résultats compétitifs en détection d'objets 3D. Ainsi, nous démontrons une voie réalisable pour améliorer les capacités de compréhension spatiale des LLM modernes, avec des applications en réalité augmentée, robotique incarnée, et bien plus encore.
English
SpatialLM is a large language model designed to process 3D point cloud data and generate structured 3D scene understanding outputs. These outputs include architectural elements like walls, doors, windows, and oriented object boxes with their semantic categories. Unlike previous methods which exploit task-specific network designs, our model adheres to the standard multimodal LLM architecture and is fine-tuned directly from open-source LLMs. To train SpatialLM, we collect a large-scale, high-quality synthetic dataset consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with ground-truth 3D annotations, and conduct a careful study on various modeling and training decisions. On public benchmarks, our model gives state-of-the-art performance in layout estimation and competitive results in 3D object detection. With that, we show a feasible path for enhancing the spatial understanding capabilities of modern LLMs for applications in augmented reality, embodied robotics, and more.
PDF342June 10, 2025