UAGLNet: CNN-Transformer 협력을 통한 불확실성 집계 글로벌-로컬 융합 네트워크의 건물 추출
UAGLNet: Uncertainty-Aggregated Global-Local Fusion Network with Cooperative CNN-Transformer for Building Extraction
December 15, 2025
저자: Siyuan Yao, Dongxiu Liu, Taotao Li, Shengjie Li, Wenqi Ren, Xiaochun Cao
cs.AI
초록
원격 감지 영상에서 건물 추출은 건물 구조의 복잡한 변동성으로 인해 어려운 과제입니다. 기존 방법은 분할 모델에서 다중 스케일 특징을 포착하기 위해 합성곱 또는 자기 주의 블록을 사용하지만, 특징 피라미드의 본질적 차이와 전역-지역 특징 통합의 부족으로 인해 부정확하고 모호한 추출 결과를 초래합니다. 이러한 문제를 해결하기 위해 본 논문에서는 불확실성 모델링 지도 하에 고품질의 전역-지역 시각 의미를 활용할 수 있는 불확실성 집계 전역-지역 융합 네트워크(UAGLNet)를 제안합니다. 구체적으로, 서로 다른 단계에서 하이브리드 CNN과 트랜스포머 계층을 채택하여 각각 지역적 및 전역적 시각 의미를 포착하는 새로운 협력형 인코더를 제안합니다. 네트워크가 깊어질 때 지역적 특징과 전역적 특징 간의 차이를 줄이기 위해 중간 협력 상호 작용 블록(CIB)을 설계했습니다. 이후 전역적 표현과 지역적 표현을 상호 보완적으로 융합하기 위한 전역-지역 융합(GLF) 모듈을 제안합니다. 더 나아가 불확실한 영역에서의 분할 모호성을 완화하기 위해 픽셀 단위 불확실성을 명시적으로 추정하여 분할 정확도를 향상시키는 불확실성 집계 디코더(UAD)를 제안합니다. 광범위한 실험을 통해 제안 방법이 다른 최신 방법보다 우수한 성능을 달성함을 입증했습니다. 코드는 https://github.com/Dstate/UAGLNet에서 확인할 수 있습니다.
English
Building extraction from remote sensing images is a challenging task due to the complex structure variations of the buildings. Existing methods employ convolutional or self-attention blocks to capture the multi-scale features in the segmentation models, while the inherent gap of the feature pyramids and insufficient global-local feature integration leads to inaccurate, ambiguous extraction results. To address this issue, in this paper, we present an Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), which is capable to exploit high-quality global-local visual semantics under the guidance of uncertainty modeling. Specifically, we propose a novel cooperative encoder, which adopts hybrid CNN and transformer layers at different stages to capture the local and global visual semantics, respectively. An intermediate cooperative interaction block (CIB) is designed to narrow the gap between the local and global features when the network becomes deeper. Afterwards, we propose a Global-Local Fusion (GLF) module to complementarily fuse the global and local representations. Moreover, to mitigate the segmentation ambiguity in uncertain regions, we propose an Uncertainty-Aggregated Decoder (UAD) to explicitly estimate the pixel-wise uncertainty to enhance the segmentation accuracy. Extensive experiments demonstrate that our method achieves superior performance to other state-of-the-art methods. Our code is available at https://github.com/Dstate/UAGLNet