ChatPaper.aiChatPaper

UAGLNet: Onzekerheids-geaggregeerd Globaal-Lokaal Fusienetwerk met Coöperatieve CNN-Transformer voor Gebouwenextractie

UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction

December 15, 2025
Auteurs: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI

Samenvatting

Het extraheren van gebouwen uit remote sensing-beelden is een uitdagende taak vanwege de complexe structurele variaties van gebouwen. Bestaande methoden gebruiken convolutionele of self-attention blokken om multi-schaal kenmerken in segmentatiemodellen vast te leggen, maar de inherente kloof in de kenmerkenpiramides en onvoldoende integratie van globale en lokale kenmerken leidt tot onnauwkeurige, ambigue extractieresultaten. Om dit probleem aan te pakken, presenteren wij in dit artikel een Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), dat in staat is hoogwaardige globale-lokale visuele semantiek te benutten onder begeleiding van onzekerheidsmodellering. Specifiek stellen wij een nieuwe coöperatieve encoder voor, die hybride CNN- en transformer-lagen in verschillende stadia gebruikt om respectievelijk de lokale en globale visuele semantiek vast te leggen. Een intermediate cooperative interaction block (CIB) is ontworpen om de kloof tussen de lokale en globale kenmerken te verkleinen wanneer het netwerk dieper wordt. Vervolgens stellen wij een Global-Local Fusion (GLF)-module voor om de globale en lokale representaties complementair te fuseren. Bovendien, om de segmentatie-ambiguïteit in onzekere regio's te verminderen, stellen wij een Uncertainty-Aggregated Decoder (UAD) voor om pixelgewijze onzekerheid expliciet te schatten om de segmentatienauwkeurigheid te verbeteren. Uitgebreide experimenten tonen aan dat onze methode superieure prestaties bereikt in vergelijking met andere state-of-the-art methoden. Onze code is beschikbaar op https://github.com/Dstate/UAGLNet.
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet
PDF11December 18, 2025