Raster2Seq: 평면도 재구성을 위한 폴리곤 시퀀스 생성
Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction
May 11, 2026
저자: Hao Phung, Hadar Averbuch-Elor
cs.AI
초록
래스터화된 평면도 이미지로부터 구조화된 벡터 그래픽 표현을 재구성하는 것은 일반적으로 자동 이해 또는 CAD 워크플로우와 같은 평면도 관련 계산 작업의 중요한 전제 조건이다. 그러나 기존 기술은 많은 방과 다양한 수의 다각형 모서리를 가진 대규모 실내 공간을 묘사하는 복잡한 평면도가 전달하는 구조와 의미를 충실하게 생성하는 데 어려움을 겪는다. 이를 위해 우리는 Raster2Seq를 제안하며, 평면도 재구성을 시퀀스-투-시퀀스 작업으로 구성한다. 여기서 방, 창문, 문과 같은 평면도 요소는 기하학과 의미를 함께 인코딩하는 레이블이 지정된 다각형 시퀀스로 표현된다. 우리의 접근 방식은 학습 가능한 앵커의 안내를 사용하여 이미지 특징과 이전에 생성된 모서리에 조건부로 다음 모서리를 예측하는 방법을 학습하는 자기회귀 디코더를 도입한다. 이러한 앵커는 이미지 공간의 공간 좌표를 나타내므로, 주의 메커니즘이 정보가 풍부한 이미지 영역에 집중하도록 효과적으로 유도할 수 있다. 자기회귀 메커니즘을 채택함으로써 우리의 방법은 출력 형식에 유연성을 제공하여, 많은 방과 다양한 다각형 구조를 가진 복잡한 평면도를 효율적으로 처리할 수 있다. 우리의 방법은 Structure3D, CubiCasa5K 및 Raster2Graph와 같은 표준 벤치마크에서 최첨단 성능을 달성할 뿐만 아니라, 다양한 방 구조와 복잡한 기하학적 변형을 포함하는 WAFFLE과 같은 더 까다로운 데이터셋에 대한 강력한 일반화 능력을 입증한다.
English
Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.