ChatPaper.aiChatPaper

UAGLNet : Réseau de fusion globale-locale à agrégation d'incertitude avec coopération CNN-Transformeur pour l'extraction de bâtiments

UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction

December 15, 2025
papers.authors: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI

papers.abstract

L'extraction de bâtiments à partir d'images de télédétection est une tâche difficile en raison des variations complexes de la structure des bâtiments. Les méthodes existantes utilisent des blocs convolutifs ou d'auto-attention pour capturer les caractéristiques multi-échelles dans les modèles de segmentation, mais l'écart inhérent des pyramides de caractéristiques et une intégration insuffisante des caractéristiques globales-locales conduisent à des résultats d'extraction imprécis et ambigus. Pour résoudre ce problème, nous présentons dans cet article un Réseau de Fusion Globale-Locale à Agrégation d'Incertitude (UAGLNet), capable d'exploiter une sémantique visuelle globale-locale de haute qualité sous la guidance d'une modélisation de l'incertitude. Plus précisément, nous proposons un encodeur coopératif novateur, qui adopte des couches hybrides de CNN et de transformer à différents stades pour capturer respectivement la sémantique visuelle locale et globale. Un bloc d'interaction coopérative intermédiaire (CIB) est conçu pour réduire l'écart entre les caractéristiques locales et globales lorsque le réseau devient plus profond. Ensuite, nous proposons un module de Fusion Globale-Locale (GLF) pour fusionner de manière complémentaire les représentations globales et locales. De plus, pour atténuer l'ambiguïté de segmentation dans les régions incertaines, nous proposons un Décodeur à Agrégation d'Incertitude (UAD) pour estimer explicitement l'incertitude pixel par pixel afin d'améliorer la précision de la segmentation. Des expériences approfondies démontrent que notre méthode obtient des performances supérieures à celles des autres méthodes de l'état de l'art. Notre code est disponible à l'adresse https://github.com/Dstate/UAGLNet
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet
PDF11December 18, 2025