위성 이미지 분류를 위한 균형 잡힌 다중 작업 주의: 사전 학습 없이 EuroSAT에서 97.23% 정확도 달성을 위한 체계적 접근법
Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training
October 17, 2025
저자: Aditya Vir
cs.AI
초록
본 연구는 위성 토지 이용 분류를 위한 맞춤형 합성곱 신경망(CNN) 아키텍처를 체계적으로 탐구한 결과를 제시하며, 사전 학습된 모델에 의존하지 않고 EuroSAT 데이터셋에서 97.23%의 테스트 정확도를 달성하였다. 세 가지 점진적인 아키텍처 반복(기본 모델: 94.30%, CBAM 강화 모델: 95.98%, 균형 다중 작업 주의 메커니즘: 97.23%)을 통해 위성 영상 분류에서 발생하는 특정 실패 모드를 식별하고 해결하였다. 본 연구의 주요 기여는 공간적 특징 추출을 위한 좌표 주의(Coordinate Attention)와 스펙트럼 특징 추출을 위한 Squeeze-Excitation 블록을 학습 가능한 융합 파라미터를 통해 통합한 새로운 균형 다중 작업 주의 메커니즘이다. 실험 결과, 이 학습 가능한 파라미터는 알파 값이 약 0.57로 자율적으로 수렴하며, 위성 영상에서 공간적 및 스펙트럼 모달리티의 중요성이 거의 동등함을 보여준다. 과적합과 혼동 패턴 불균형을 해결하기 위해 점진적 DropBlock 정규화(네트워크 깊이에 따라 5-20%)와 클래스 균형 손실 가중치를 적용하였다. 최종 12층 아키텍처는 모든 클래스에서 94.46% 이상의 정확도를 달성하며 Cohen's Kappa 값이 0.9692로 나타났고, 올바른 예측과 잘못된 예측 간의 격차가 24.25%로 신뢰도 보정을 입증하였다. 본 접근법은 외부 데이터 없이도 미세 조정된 ResNet-50(98.57%)의 성능과 1.34% 이내의 차이로 근접한 성능을 달성하여, 도메인 특화 애플리케이션을 위한 체계적인 아키텍처 설계의 효용성을 검증하였다. 전체 코드, 학습된 모델 및 평가 스크립트는 공개적으로 제공된다.
English
This work presents a systematic investigation of custom convolutional neural
network architectures for satellite land use classification, achieving 97.23%
test accuracy on the EuroSAT dataset without reliance on pre-trained models.
Through three progressive architectural iterations (baseline: 94.30%,
CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify
and address specific failure modes in satellite imagery classification. Our
principal contribution is a novel balanced multi-task attention mechanism that
combines Coordinate Attention for spatial feature extraction with
Squeeze-Excitation blocks for spectral feature extraction, unified through a
learnable fusion parameter. Experimental results demonstrate that this
learnable parameter autonomously converges to alpha approximately 0.57,
indicating near-equal importance of spatial and spectral modalities for
satellite imagery. We employ progressive DropBlock regularization (5-20% by
network depth) and class-balanced loss weighting to address overfitting and
confusion pattern imbalance. The final 12-layer architecture achieves Cohen's
Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating
confidence calibration with a 24.25% gap between correct and incorrect
predictions. Our approach achieves performance within 1.34% of fine-tuned
ResNet-50 (98.57%) while requiring no external data, validating the efficacy of
systematic architectural design for domain-specific applications. Complete
code, trained models, and evaluation scripts are publicly available.