ChatPaper.aiChatPaper

SpatialLM: Treinando Modelos de Linguagem de Grande Escala para Modelagem Estruturada de Ambientes Internos

SpatialLM: Training Large Language Models for Structured Indoor Modeling

June 9, 2025
Autores: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI

Resumo

O SpatialLM é um modelo de linguagem de grande escala projetado para processar dados de nuvem de pontos 3D e gerar saídas estruturadas de compreensão de cenas 3D. Essas saídas incluem elementos arquitetônicos como paredes, portas, janelas e caixas de objetos orientados com suas categorias semânticas. Diferente de métodos anteriores que exploram designs de rede específicos para tarefas, nosso modelo adere à arquitetura padrão de LLM multimodal e é ajustado diretamente a partir de LLMs de código aberto. Para treinar o SpatialLM, coletamos um conjunto de dados sintético em larga escala e de alta qualidade, composto por nuvens de pontos de 12.328 cenas internas (54.778 cômodos) com anotações 3D de referência, e conduzimos um estudo cuidadoso sobre várias decisões de modelagem e treinamento. Em benchmarks públicos, nosso modelo apresenta desempenho de ponta em estimativa de layout e resultados competitivos em detecção de objetos 3D. Com isso, mostramos um caminho viável para aprimorar as capacidades de compreensão espacial dos LLMs modernos para aplicações em realidade aumentada, robótica incorporada e mais.
English
SpatialLM is a large language model designed to process 3D point cloud data and generate structured 3D scene understanding outputs. These outputs include architectural elements like walls, doors, windows, and oriented object boxes with their semantic categories. Unlike previous methods which exploit task-specific network designs, our model adheres to the standard multimodal LLM architecture and is fine-tuned directly from open-source LLMs. To train SpatialLM, we collect a large-scale, high-quality synthetic dataset consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with ground-truth 3D annotations, and conduct a careful study on various modeling and training decisions. On public benchmarks, our model gives state-of-the-art performance in layout estimation and competitive results in 3D object detection. With that, we show a feasible path for enhancing the spatial understanding capabilities of modern LLMs for applications in augmented reality, embodied robotics, and more.
PDF362June 10, 2025