Raster2Seq : Génération de séquences de polygones pour la reconstruction de plans d'étage

Résumé

Reconstruire une représentation graphique vectorielle structurée à partir d’une image de plan d’étage tramée constitue généralement un prérequis important pour les tâches computationnelles impliquant des plans d’étage, telles que la compréhension automatisée ou les flux de travail CAO. Cependant, les techniques existantes peinent à reproduire fidèlement la structure et la sémantique véhiculées par des plans d’étage complexes représentant de grands espaces intérieurs avec de nombreuses pièces et un nombre variable de sommets polygonaux. Pour y remédier, nous proposons Raster2Seq, qui cadre la reconstruction de plans d’étage comme une tâche séquence-à-séquence dans laquelle les éléments du plan—tels que les pièces, fenêtres et portes—sont représentés sous forme de séquences polygonales étiquetées codant conjointement la géométrie et la sémantique. Notre approche introduit un décodeur autorégressif qui apprend à prédire le sommet suivant en fonction des caractéristiques de l’image et des sommets précédemment générés, à l’aide d’ancres apprenables. Ces ancres représentent des coordonnées spatiales dans l’espace image, permettant ainsi d’orienter efficacement le mécanisme d’attention vers les régions informatives de l’image. En adoptant le mécanisme autorégressif, notre méthode offre une flexibilité dans le format de sortie, permettant de traiter efficacement des plans d’étage complexes avec de nombreuses pièces et des structures polygonales variées. Notre méthode atteint des performances de pointe sur des références standards telles que Structure3D, CubiCasa5K et Raster2Graph, tout en démontrant une forte généralisation à des ensembles de données plus exigeants comme WAFFLE, qui contiennent des structures de pièces diverses et des variations géométriques complexes.

English

Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.