Raster2Seq: Polygoonsequentiegeneratie voor Plattegrondreconstructie

Samenvatting

Het reconstrueren van een gestructureerde vectorafbeeldingrepresentatie op basis van een gerasterde plattegrondafbeelding is doorgaans een belangrijke voorwaarde voor computationele taken met plattegronden, zoals geautomatiseerde interpretatie of CAD-workflows. Bestaande technieken hebben echter moeite met het getrouw genereren van de structuur en semantiek die worden overgebracht door complexe plattegronden van grote binnenruimten met veel kamers en een variërend aantal polygoonhoeken. Daartoe stellen wij Raster2Seq voor, waarbij plattegrondreconstructie wordt ingekaderd als een sequentie-naar-sequentietaak waarin plattegrondselementen – zoals kamers, ramen en deuren – worden vertegenwoordigd als gelabelde polygoonsequenties die gezamenlijk geometrie en semantiek coderen. Onze aanpak introduceert een autoregressieve decoder die leert het volgende hoekpunt te voorspellen, geconditioneerd op beeldkenmerken en eerder gegenereerde hoekpunten, met behulp van sturing door leerbare ankerpunten. Deze ankerpunten vertegenwoordigen ruimtelijke coördinaten in de beeldruimte, waardoor het aandachtsmechanisme effectief kan worden gestuurd naar informatieve beeldgebieden. Door gebruik te maken van het autoregressieve mechanisme biedt onze methode flexibiliteit in het uitvoerformaat, wat efficiënte verwerking mogelijk maakt van complexe plattegronden met talrijke kamers en diverse polygoonstructuren. Onze methode behaalt state-of-the-art prestaties op standaard benchmarks zoals Structure3D, CubiCasa5K en Raster2Graph, en vertoont tevens sterke generalisatie naar meer uitdagende datasets zoals WAFFLE, die diverse kamerstructuren en complexe geometrische variaties bevatten.

English

Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.