衛星画像分類のためのバランス型マルチタスク注意:事前学習なしでEuroSATにおいて97.23%の精度を達成する体系的なアプローチ
Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training
October 17, 2025
著者: Aditya Vir
cs.AI
要旨
本研究は、衛星画像の土地利用分類のためのカスタム畳み込みニューラルネットワークアーキテクチャを体系的に調査し、事前学習済みモデルに依存せずにEuroSATデータセットで97.23%のテスト精度を達成した。3つの段階的なアーキテクチャ改良(ベースライン:94.30%、CBAM強化:95.98%、バランス型マルチタスク注意機構:97.23%)を通じて、衛星画像分類における特定の失敗モードを特定し、対処した。主な貢献は、空間的特徴抽出のためのCoordinate Attentionとスペクトル特徴抽出のためのSqueeze-Excitationブロックを、学習可能な融合パラメータで統合した新規のバランス型マルチタスク注意機構である。実験結果から、この学習可能なパラメータは約0.57のアルファ値に自律的に収束し、衛星画像における空間的モダリティとスペクトルモダリティの重要性がほぼ同等であることが示された。過学習と混同行列の不均衡に対処するため、ネットワークの深さに応じた段階的DropBlock正則化(5-20%)とクラスバランス型損失重み付けを採用した。最終的な12層アーキテクチャはCohenのカッパ値0.9692を達成し、全てのクラスで94.46%以上の精度を示し、正解と不正解の予測間の24.25%のギャップで信頼度較正を実証した。本手法は、外部データを必要とせずにファインチューニング済みResNet-50(98.57%)の1.34%以内の性能を達成し、ドメイン固有アプリケーションにおける体系的なアーキテクチャ設計の有効性を検証した。完全なコード、学習済みモデル、評価スクリプトを公開している。
English
This work presents a systematic investigation of custom convolutional neural
network architectures for satellite land use classification, achieving 97.23%
test accuracy on the EuroSAT dataset without reliance on pre-trained models.
Through three progressive architectural iterations (baseline: 94.30%,
CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify
and address specific failure modes in satellite imagery classification. Our
principal contribution is a novel balanced multi-task attention mechanism that
combines Coordinate Attention for spatial feature extraction with
Squeeze-Excitation blocks for spectral feature extraction, unified through a
learnable fusion parameter. Experimental results demonstrate that this
learnable parameter autonomously converges to alpha approximately 0.57,
indicating near-equal importance of spatial and spectral modalities for
satellite imagery. We employ progressive DropBlock regularization (5-20% by
network depth) and class-balanced loss weighting to address overfitting and
confusion pattern imbalance. The final 12-layer architecture achieves Cohen's
Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating
confidence calibration with a 24.25% gap between correct and incorrect
predictions. Our approach achieves performance within 1.34% of fine-tuned
ResNet-50 (98.57%) while requiring no external data, validating the efficacy of
systematic architectural design for domain-specific applications. Complete
code, trained models, and evaluation scripts are publicly available.