ChatPaper.aiChatPaper

Geometrie-bewusste Optimierung für die Klassifizierung von Atemgeräuschen: Steigerung der Sensitivität mit SAM-optimierten Audio-Spektrogramm-Transformern

Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers

December 27, 2025
papers.authors: Atakan Işık, Selin Vulga Işık, Ahmet Feridun Işık, Mahşuk Taylan
cs.AI

papers.abstract

Die Klassifizierung von Atemgeräuschen wird durch die begrenzte Größe, das hohe Maß an Rauschen und das ausgeprägte Klassenungleichgewicht von Referenzdatensätzen wie ICBHI 2017 erschwert. Transformer-basierte Modelle bieten zwar leistungsstarke Merkmalsextraktionsfähigkeiten, neigen jedoch bei solchen eingeschränkten medizinischen Daten zu Overfitting und konvergieren oft zu scharfkantigen Minima in der Verlustlandschaft. Um dies zu adressieren, stellen wir ein Framework vor, das den Audio Spectrogram Transformer (AST) durch Sharpness-Aware Minimization (SAM) erweitert. Statt lediglich den Trainingsverlust zu minimieren, optimiert unser Ansatz die Geometrie der Verlustfläche und lenkt das Modell hin zu flacheren Minima, die eine bessere Generalisierung auf unbekannte Patienten ermöglichen. Zusätzlich setzen wir eine gewichtete Sampling-Strategie ein, um das Klassenungleichgewicht effektiv zu behandeln. Unsere Methode erzielt einen state-of-the-art-Wert von 68,10 % auf dem ICBHI-2017-Datensatz und übertrifft damit bestehende CNN- und hybride Baseline-Modelle. Noch wichtiger ist, dass sie eine Sensitivität von 68,31 % erreicht – eine entscheidende Verbesserung für zuverlässiges klinisches Screening. Weitere Analysen mittels t-SNE und Attention Maps bestätigen, dass das Modell robuste, diskriminative Merkmale erlernt, anstatt Hintergrundrauschen auswendig zu lernen.
English
Respiratory sound classification is hindered by the limited size, high noise levels, and severe class imbalance of benchmark datasets like ICBHI 2017. While Transformer-based models offer powerful feature extraction capabilities, they are prone to overfitting and often converge to sharp minima in the loss landscape when trained on such constrained medical data. To address this, we introduce a framework that enhances the Audio Spectrogram Transformer (AST) using Sharpness-Aware Minimization (SAM). Instead of merely minimizing the training loss, our approach optimizes the geometry of the loss surface, guiding the model toward flatter minima that generalize better to unseen patients. We also implement a weighted sampling strategy to handle class imbalance effectively. Our method achieves a state-of-the-art score of 68.10% on the ICBHI 2017 dataset, outperforming existing CNN and hybrid baselines. More importantly, it reaches a sensitivity of 68.31%, a crucial improvement for reliable clinical screening. Further analysis using t-SNE and attention maps confirms that the model learns robust, discriminative features rather than memorizing background noise.
PDF51January 2, 2026