ChatPaper.aiChatPaper

SpatialLM: Het trainen van grote taalmodellen voor gestructureerde binnenmodellering

SpatialLM: Training Large Language Models for Structured Indoor Modeling

June 9, 2025
Auteurs: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI

Samenvatting

SpatialLM is een groot taalmodel dat is ontworpen om 3D-puntenwolkgegevens te verwerken en gestructureerde 3D-scènebegripuitvoer te genereren. Deze uitvoer omvat architectonische elementen zoals muren, deuren, ramen en georiënteerde objectvakken met hun semantische categorieën. In tegenstelling tot eerdere methoden die gebruikmaken van taakspecifieke netwerkontwerpen, houdt ons model zich aan de standaard multimodale LLM-architectuur en wordt het direct afgestemd vanuit open-source LLM's. Om SpatialLM te trainen, verzamelen we een grootschalige, hoogwaardige synthetische dataset bestaande uit de puntenwolken van 12.328 binnenruimtes (54.778 kamers) met grondwaarheid 3D-annotaties, en voeren we een zorgvuldige studie uit naar verschillende modellerings- en trainingsbeslissingen. Op openbare benchmarks levert ons model state-of-the-art prestaties in lay-outschatting en competitieve resultaten in 3D-objectdetectie. Hiermee tonen we een haalbare weg aan om de ruimtelijke begripscapaciteiten van moderne LLM's te verbeteren voor toepassingen in augmented reality, belichaamde robotica en meer.
English
SpatialLM is a large language model designed to process 3D point cloud data and generate structured 3D scene understanding outputs. These outputs include architectural elements like walls, doors, windows, and oriented object boxes with their semantic categories. Unlike previous methods which exploit task-specific network designs, our model adheres to the standard multimodal LLM architecture and is fine-tuned directly from open-source LLMs. To train SpatialLM, we collect a large-scale, high-quality synthetic dataset consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with ground-truth 3D annotations, and conduct a careful study on various modeling and training decisions. On public benchmarks, our model gives state-of-the-art performance in layout estimation and competitive results in 3D object detection. With that, we show a feasible path for enhancing the spatial understanding capabilities of modern LLMs for applications in augmented reality, embodied robotics, and more.
PDF502June 10, 2025