UAGLNet: 協調的CNN-Transformerによる不確実性集約型グローバル-ローカル融合ネットワークを用いた建物抽出
UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction
December 15, 2025
著者: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI
要旨
リモートセンシング画像からの建物抽出は、建物の複雑な構造変化により困難な課題である。既存手法では、セグメンテーションモデル内のマルチスケール特徴を抽出するために畳み込みブロックや自己注意機構ブロックが用いられるが、特徴ピラミッドの本質的な隔たりや、大域的特徴と局所的特徴の統合不足により、不正確で曖昧な抽出結果が生じる。この問題を解決するため、本論文では不確実性モデリングに基づいて高品質な大域-局所視覚的意味情報を活用可能な不確実性集約型大域-局所融合ネットワーク(UAGLNet)を提案する。具体的には、異なる段階でCNN層とトランスフォーマー層をハイブリッドに採用し、それぞれ局所的および大域的な視覚的意味情報を抽出する新規の協調エンコーダを構築した。ネットワークが深層化する際の大域的特徴と局所的特徴の隔たりを縮小するため、中間協調相互作用ブロック(CIB)を設計した。さらに、大域的表現と局所的表現を相補的に融合する大域-局所融合(GLF)モジュールを提案した。加えて、不確実な領域におけるセグメンテーションの曖昧さを軽減するため、画素単位の不確実性を明示的に推定してセグメンテーション精度を向上させる不確実性集約型デコーダ(UAD)を提案した。大規模な実験により、本手法が他の最先端手法を上回る優れた性能を達成することを実証した。コードはhttps://github.com/Dstate/UAGLNet で公開している。
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet