ChatPaper.aiChatPaper

Raster2Seq: フロアプラン再構成のためのポリゴンシーケンス生成

Raster2Seq: Polygon Sequence Generation for Floorplan Reconstruction

May 11, 2026
著者: Hao Phung, Hadar Averbuch-Elor
cs.AI

要旨

ラスタ化された平面図画像から構造化されたベクターグラフィックス表現を再構築することは、自動理解やCADワークフローなどの平面図を扱う計算タスクにおいて、通常、重要な前提条件となる。しかし、既存の手法では、多数の部屋と多様なポリゴン頂点数を持つ大規模な屋内空間を描いた複雑な平面図が伝える構造と意味を忠実に生成することに困難を伴う。そこで本稿では、Raster2Seqを提案する。これは、平面図の再構築を系列変換タスクとして捉え、部屋、窓、ドアなどの平面図要素を、形状と意味を共同で符号化するラベル付きポリゴン系列として表現する。本手法では、自己回帰型デコーダを導入し、画像特徴と学習可能なアンカーからのガイダンスを用いて、既に生成されたコーナーと画像特徴に基づき次のコーナーを予測することを学習する。これらのアンカーは画像空間内の空間座標を表すため、注意機構を情報の多い画像領域に効果的に向けることを可能にする。自己回帰機構を採用することにより、出力形式に柔軟性が生まれ、多数の部屋や多様なポリゴン構造を持つ複雑な平面図を効率的に処理できる。本手法は、Structure3D、CubiCasa5K、Raster2Graphといった標準ベンチマークにおいて最先端の性能を達成する一方、多様な部屋構造と複雑な幾何学的変動を含むWAFFLEのようなより困難なデータセットに対しても強い汎化性能を示す。
English
Reconstructing a structured vector-graphics representation from a rasterized floorplan image is typically an important prerequisite for computational tasks involving floorplans such as automated understanding or CAD workflows. However, existing techniques struggle in faithfully generating the structure and semantics conveyed by complex floorplans that depict large indoor spaces with many rooms and a varying numbers of polygon corners. To this end, we propose Raster2Seq, framing floorplan reconstruction as a sequence-to-sequence task in which floorplan elements--such as rooms, windows, and doors--are represented as labeled polygon sequences that jointly encode geometry and semantics. Our approach introduces an autoregressive decoder that learns to predict the next corner conditioned on image features and previously generated corners using guidance from learnable anchors. These anchors represent spatial coordinates in image space, hence allowing for effectively directing the attention mechanism to focus on informative image regions. By embracing the autoregressive mechanism, our method offers flexibility in the output format, enabling for efficiently handling complex floorplans with numerous rooms and diverse polygon structures. Our method achieves state-of-the-art performance on standard benchmarks such as Structure3D, CubiCasa5K, and Raster2Graph, while also demonstrating strong generalization to more challenging datasets like WAFFLE, which contain diverse room structures and complex geometric variations.