SpatialLM: Обучение крупных языковых моделей для структурированного моделирования внутренних пространств
SpatialLM: Training Large Language Models for Structured Indoor Modeling
June 9, 2025
Авторы: Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
cs.AI
Аннотация
SpatialLM — это крупная языковая модель, разработанная для обработки данных 3D-точечных облаков и генерации структурированных результатов понимания трехмерных сцен. Эти результаты включают архитектурные элементы, такие как стены, двери, окна, а также ориентированные ограничивающие рамки объектов с их семантическими категориями. В отличие от предыдущих методов, которые используют специализированные архитектуры сетей, наша модель соответствует стандартной мультимодальной архитектуре LLM и дорабатывается напрямую на основе открытых LLM.
Для обучения SpatialLM мы собрали крупномасштабный, высококачественный синтетический набор данных, состоящий из точечных облаков 12 328 внутренних сцен (54 778 помещений) с аннотациями 3D-разметки, и провели тщательное исследование различных решений по моделированию и обучению. На публичных тестовых наборах наша модель демонстрирует наилучшие результаты в оценке планировки и конкурентоспособные показатели в задаче 3D-обнаружения объектов. Таким образом, мы показываем реализуемый путь для улучшения пространственного понимания современных LLM в приложениях дополненной реальности, робототехники и других областях.
English
SpatialLM is a large language model designed to process 3D point cloud data
and generate structured 3D scene understanding outputs. These outputs include
architectural elements like walls, doors, windows, and oriented object boxes
with their semantic categories. Unlike previous methods which exploit
task-specific network designs, our model adheres to the standard multimodal LLM
architecture and is fine-tuned directly from open-source LLMs.
To train SpatialLM, we collect a large-scale, high-quality synthetic dataset
consisting of the point clouds of 12,328 indoor scenes (54,778 rooms) with
ground-truth 3D annotations, and conduct a careful study on various modeling
and training decisions. On public benchmarks, our model gives state-of-the-art
performance in layout estimation and competitive results in 3D object
detection. With that, we show a feasible path for enhancing the spatial
understanding capabilities of modern LLMs for applications in augmented
reality, embodied robotics, and more.