Raster2Seq: Generación de Secuencias de Polígonos para la Reconstrucción de Planos de Planta

Resumen

Reconstruir una representación estructurada de gráficos vectoriales a partir de una imagen de plano de planta rasterizada suele ser un requisito previo importante para tareas computacionales que involucran planos de planta, como la comprensión automatizada o los flujos de trabajo CAD. Sin embargo, las técnicas existentes presentan dificultades para generar fielmente la estructura y semántica transmitida por planos de planta complejos que representan grandes espacios interiores con numerosas habitaciones y una cantidad variable de vértices poligonales. Con este fin, proponemos Raster2Seq, que enmarca la reconstrucción de planos de planta como una tarea secuencia a secuencia en la que los elementos del plano—como habitaciones, ventanas y puertas—se representan como secuencias de polígonos etiquetados que codifican conjuntamente geometría y semántica. Nuestro enfoque introduce un decodificador autorregresivo que aprende a predecir el siguiente vértice condicionado por las características de la imagen y los vértices previamente generados, utilizando la guía de anclajes aprendibles. Estos anclajes representan coordenadas espaciales en el espacio de la imagen, lo que permite dirigir eficazmente el mecanismo de atención hacia regiones informativas de la imagen. Al adoptar el mecanismo autorregresivo, nuestro método ofrece flexibilidad en el formato de salida, permitiendo manejar eficientemente planos de planta complejos con numerosas habitaciones y diversas estructuras poligonales. Nuestro método logra un rendimiento de vanguardia en puntos de referencia estándar como Structure3D, CubiCasa5K y Raster2Graph, al mismo tiempo que demuestra una fuerte capacidad de generalización a conjuntos de datos más desafiantes como WAFFLE, que contienen diversas estructuras de habitaciones y variaciones geométricas complejas.

English

Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.