Raster2Seq: Polygon-Sequenz-Generierung für die Grundrissrekonstruktion

Zusammenfassung

Die Rekonstruktion einer strukturierten Vektorgrafikdarstellung aus einem gerasterten Grundrissbild ist typischerweise eine wichtige Voraussetzung für rechnerische Aufgaben mit Grundrissen, wie etwa automatisiertes Verständnis oder CAD-Workflows. Allerdings haben bestehende Techniken Schwierigkeiten, die Struktur und Semantik komplexer Grundrisse getreu zu erzeugen, die große Innenräume mit vielen Räumen und einer variierenden Anzahl von Polygon-Ecken darstellen. Zu diesem Zweck schlagen wir Raster2Seq vor, das die Grundrissrekonstruktion als eine Sequenz-zu-Sequenz-Aufgabe formuliert, bei der Grundrisselemente – wie Räume, Fenster und Türen – als beschriftete Polygon-Sequenzen dargestellt werden, die gemeinsam Geometrie und Semantik kodieren. Unser Ansatz führt einen autoregressiven Dekoder ein, der lernt, die nächste Ecke basierend auf Bildmerkmalen und zuvor generierten Ecken vorherzusagen, wobei er durch lernbare Ankerpunkte geleitet wird. Diese Ankerpunkte repräsentieren räumliche Koordinaten im Bildraum und ermöglichen es somit, den Aufmerksamkeitsmechanismus effektiv auf informative Bildbereiche zu lenken. Durch die Nutzung des autoregressiven Mechanismus bietet unsere Methode Flexibilität im Ausgabeformat und ermöglicht die effiziente Verarbeitung komplexer Grundrisse mit zahlreichen Räumen und unterschiedlichen Polygonstrukturen. Unsere Methode erzielt eine Spitzenleistung auf Standard-Benchmarks wie Structure3D, CubiCasa5K und Raster2Graph und zeigt gleichzeitig eine starke Generalisierungsfähigkeit auf anspruchsvollere Datensätze wie WAFFLE, die vielfältige Raumstrukturen und komplexe geometrische Variationen enthalten.

English

Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.