ChatPaper.aiChatPaper

SpatialLM: Entrenamiento de Modelos de Lenguaje a Gran Escala para el Modelado Estructurado de Interiores

SpatialLM: Training Large Language Models for Structured Indoor Modeling

June 9, 2025
Autores: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI

Resumen

SpatialLM es un modelo de lenguaje de gran escala diseñado para procesar datos de nubes de puntos 3D y generar salidas estructuradas de comprensión de escenas 3D. Estas salidas incluyen elementos arquitectónicos como paredes, puertas, ventanas y cajas de objetos orientados con sus categorías semánticas. A diferencia de métodos anteriores que utilizan diseños de redes específicos para tareas, nuestro modelo sigue la arquitectura estándar de LLM multimodal y se ajusta directamente a partir de LLM de código abierto. Para entrenar SpatialLM, recopilamos un conjunto de datos sintéticos de gran escala y alta calidad que consta de las nubes de puntos de 12,328 escenas interiores (54,778 habitaciones) con anotaciones 3D de referencia, y realizamos un estudio detallado sobre diversas decisiones de modelado y entrenamiento. En benchmarks públicos, nuestro modelo ofrece un rendimiento de vanguardia en estimación de distribución espacial y resultados competitivos en detección de objetos 3D. Con esto, demostramos un camino viable para mejorar las capacidades de comprensión espacial de los LLM modernos para aplicaciones en realidad aumentada, robótica encarnada y más.
English
SpatialLM is a large language model designed to process 3D point cloud data and generate structured 3D scene understanding outputs. These outputs include architectural elements like walls, doors, windows, and oriented object boxes with their semantic categories. Unlike previous methods which exploit task-specific network designs, our model adheres to the standard multimodal LLM architecture and is fine-tuned directly from open-source LLMs. To train SpatialLM, we collect a large-scale, high-quality synthetic dataset consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with ground-truth 3D annotations, and conduct a careful study on various modeling and training decisions. On public benchmarks, our model gives state-of-the-art performance in layout estimation and competitive results in 3D object detection. With that, we show a feasible path for enhancing the spatial understanding capabilities of modern LLMs for applications in augmented reality, embodied robotics, and more.
PDF342June 10, 2025