Raster2Seq: Geração de Sequência de Polígonos para Reconstrução de Plantas Baixas

Resumo

Reconstruir uma representação gráfica vetorial estruturada a partir de uma imagem rasterizada de uma planta baixa é tipicamente um pré-requisito importante para tarefas computacionais que envolvem plantas baixas, como o entendimento automatizado ou fluxos de trabalho em CAD. No entanto, as técnicas existentes enfrentam dificuldades em gerar fielmente a estrutura e a semântica transmitidas por plantas baixas complexas que retratam grandes espaços internos com muitos cômodos e um número variável de vértices de polígonos. Para isso, propomos o Raster2Seq, que enquadra a reconstrução de plantas baixas como uma tarefa sequência a sequência, na qual os elementos da planta—como cômodos, janelas e portas—são representados como sequências de polígonos rotuladas que codificam conjuntamente geometria e semântica. Nossa abordagem introduz um decodificador autorregressivo que aprende a prever o próximo vértice condicionado às características da imagem e aos vértices gerados anteriormente, utilizando orientação de âncoras aprendíveis. Essas âncoras representam coordenadas espaciais no espaço da imagem, permitindo direcionar efetivamente o mecanismo de atenção para se concentrar em regiões informativas da imagem. Ao adotar o mecanismo autorregressivo, nosso método oferece flexibilidade no formato de saída, possibilitando lidar eficientemente com plantas baixas complexas, com numerosos cômodos e diversas estruturas poligonais. Nosso método alcança desempenho de ponta em referências padrão como Structure3D, CubiCasa5K e Raster2Graph, além de demonstrar forte generalização para conjuntos de dados mais desafiadores, como WAFFLE, que contêm estruturas de cômodos variadas e complexas variações geométricas.

English

Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.