UAGLNet: Unsicherheitsaggregiertes Global-Lokal-Fusionsnetzwerk mit kooperativer CNN-Transformer-Architektur zur Gebäudeextraktion
UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction
December 15, 2025
papers.authors: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI
papers.abstract
Die Gebäudeextraktion aus Fernerkundungsbildern ist aufgrund der komplexen Strukturvariationen von Gebäuden eine anspruchsvolle Aufgabe. Bestehende Methoden verwenden Faltungs- oder Self-Attention-Blöcke, um mehrskalige Merkmale in Segmentierungsmodellen zu erfassen, während die inhärente Lücke in den Merkmalspyramiden und eine unzureichende Integration globaler und lokaler Merkmale zu ungenauen, unscharfen Extraktionsergebnissen führen. Um dieses Problem zu lösen, stellen wir in diesem Artikel ein Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet) vor, das in der Lage ist, hochwertige global-lokale visuelle Semantik unter Anleitung der Unsicherheitsmodellierung zu nutzen. Konkret schlagen wir einen neuartigen kooperativen Encoder vor, der hybride CNN- und Transformer-Ebenen in verschiedenen Stufen verwendet, um jeweils lokale und globale visuelle Semantik zu erfassen. Ein intermediärer kooperativer Interaktionsblock (CIB) wurde entwickelt, um die Lücke zwischen lokalen und globalen Merkmalen zu verringern, wenn das Netzwerk tiefer wird. Anschließend schlagen wir ein Global-Local Fusion (GLF)-Modul vor, um die globalen und lokalen Repräsentationen komplementär zu fusionieren. Darüber hinaus schlagen wir zur Reduzierung der Segmentierungsunschärfe in unsicheren Regionen einen Uncertainty-Aggregated Decoder (UAD) vor, der pixelweise Unsicherheit explizit schätzt, um die Segmentierungsgenauigkeit zu verbessern. Umfangreiche Experimente zeigen, dass unsere Methode eine überlegene Leistung gegenüber anderen state-of-the-art Methoden erzielt. Unser Code ist verfügbar unter https://github.com/Dstate/UAGLNet.
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet