Raster2Seq: генерация последовательности полигонов для реконструкции поэтажных планов
Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction
May 11, 2026
Авторы: Hao Phung, Hadar Averbuch-Elor
cs.AI
Аннотация
Реконструкция структурированного векторного графического представления из растрового изображения плана этажа обычно является важной предварительной задачей для вычислительных операций с планами этажей, таких как автоматическое понимание или рабочие процессы САПР. Однако существующие методы сталкиваются с трудностями при точном воспроизведении структуры и семантики, передаваемой сложными планами этажей, которые изображают большие внутренние пространства с множеством комнат и переменным числом вершин многоугольников. Для решения этой проблемы мы предлагаем Raster2Seq, представляющий реконструкцию плана этажа как задачу типа sequence-to-sequence, в которой элементы плана — такие как комнаты, окна и двери — представлены в виде помеченных последовательностей многоугольников, совместно кодирующих геометрию и семантику. Наш подход использует авторегрессионный декодер, который обучается предсказывать следующую вершину с учетом признаков изображения и ранее сгенерированных вершин, используя направляющие обучаемые якоря. Эти якоря представляют пространственные координаты в пространстве изображения, что позволяет эффективно направлять механизм внимания на информативные области изображения. Благодаря использованию авторегрессионного механизма наш метод обеспечивает гибкость выходного формата, позволяя эффективно обрабатывать сложные планы этажей с большим количеством комнат и разнообразными полигональными структурами. Наш метод достигает передовых показателей на стандартных эталонных наборах данных, таких как Structure3D, CubiCasa5K и Raster2Graph, а также демонстрирует сильную обобщающую способность на более сложных наборах данных, таких как WAFFLE, которые содержат разнообразные структуры комнат и сложные геометрические вариации.
English
Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.