Ausgewogene Multi-Task-Aufmerksamkeit für die Klassifizierung von Satellitenbildern: Ein systematischer Ansatz zur Erreichung von 97,23 % Genauigkeit auf EuroSAT ohne Vorabtraining
Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training
October 17, 2025
papers.authors: Aditya Vir
cs.AI
papers.abstract
Diese Arbeit präsentiert eine systematische Untersuchung von maßgeschneiderten Architekturen für Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) zur Klassifizierung von Satellitenbildern für Landnutzungszwecke, wobei eine Testgenauigkeit von 97,23 % auf dem EuroSAT-Datensatz ohne die Verwendung vortrainierter Modelle erreicht wird. Durch drei progressive Architekturiterationen (Baseline: 94,30 %, CBAM-erweitert: 95,98 % und balancierter Multi-Task-Attention-Mechanismus: 97,23 %) identifizieren und adressieren wir spezifische Fehlermodi bei der Klassifizierung von Satellitenbildern. Unser Hauptbeitrag ist ein neuartiger balancierter Multi-Task-Attention-Mechanismus, der Coordinate Attention zur räumlichen Merkmalsextraktion mit Squeeze-Excitation-Blöcken zur spektralen Merkmalsextraktion kombiniert, vereint durch einen lernbaren Fusionsparameter. Experimentelle Ergebnisse zeigen, dass dieser lernbare Parameter autonom auf einen Wert von Alpha ≈ 0,57 konvergiert, was auf eine nahezu gleiche Bedeutung der räumlichen und spektralen Modalitäten für Satellitenbilder hinweist. Wir verwenden progressive DropBlock-Regularisierung (5–20 % nach Netzwerktiefe) und klassenbalancierte Verlustgewichtung, um Überanpassung und Ungleichgewichte in den Verwechslungsmustern zu adressieren. Die finale 12-schichtige Architektur erreicht einen Cohen’s Kappa von 0,9692, wobei alle Klassen eine Genauigkeit von über 94,46 % aufweisen, und zeigt eine Kalibrierung der Vorhersagesicherheit mit einer Lücke von 24,25 % zwischen korrekten und inkorrekten Vorhersagen. Unser Ansatz erreicht eine Leistung, die innerhalb von 1,34 % des feinabgestimmten ResNet-50 (98,57 %) liegt, ohne externe Daten zu benötigen, und validiert damit die Wirksamkeit systematischer Architekturentwürfe für domänenspezifische Anwendungen. Vollständiger Code, trainierte Modelle und Evaluationsskripte sind öffentlich verfügbar.
English
This work presents a systematic investigation of custom convolutional neural
network architectures for satellite land use classification, achieving 97.23%
test accuracy on the EuroSAT dataset without reliance on pre-trained models.
Through three progressive architectural iterations (baseline: 94.30%,
CBAM-enhanced: 95.98%, and balanced multi-task attention: 97.23%) we identify
and address specific failure modes in satellite imagery classification. Our
principal contribution is a novel balanced multi-task attention mechanism that
combines Coordinate Attention for spatial feature extraction with
Squeeze-Excitation blocks for spectral feature extraction, unified through a
learnable fusion parameter. Experimental results demonstrate that this
learnable parameter autonomously converges to alpha approximately 0.57,
indicating near-equal importance of spatial and spectral modalities for
satellite imagery. We employ progressive DropBlock regularization (5-20% by
network depth) and class-balanced loss weighting to address overfitting and
confusion pattern imbalance. The final 12-layer architecture achieves Cohen's
Kappa of 0.9692 with all classes exceeding 94.46% accuracy, demonstrating
confidence calibration with a 24.25% gap between correct and incorrect
predictions. Our approach achieves performance within 1.34% of fine-tuned
ResNet-50 (98.57%) while requiring no external data, validating the efficacy of
systematic architectural design for domain-specific applications. Complete
code, trained models, and evaluation scripts are publicly available.