Optimisation Sensible à la Géométrie pour la Classification des Sons Respiratoires : Amélioration de la Sensibilité avec des Transformers de Spectrogrammes Audio Optimisés par SAM
Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers
December 27, 2025
papers.authors: Atakan Işık, Selin Vulga Işık, Ahmet Feridun Işık, Mahşuk Taylan
cs.AI
papers.abstract
La classification des sons respiratoires est entravée par la taille limitée, les niveaux de bruit élevés et le déséquilibre sévère entre les classes des ensembles de données de référence comme ICBHI 2017. Bien que les modèles basés sur les Transformers offrent des capacités d'extraction de caractéristiques puissantes, ils sont sujets au surapprentissage et convergent souvent vers des minima aigus dans le paysage de la fonction de perte lorsqu'ils sont entraînés sur de telles données médicales contraintes. Pour résoudre ce problème, nous introduisons un cadre qui améliore le Transformer à Spectrogramme Audio (AST) en utilisant la Minimisation Sensible à l'Acuité (SAM). Au lieu de simplement minimiser la perte d'entraînement, notre approche optimise la géométrie de la surface de perte, guidant le modèle vers des minima plus plats qui généralisent mieux aux patients non vus. Nous mettons également en œuvre une stratégie d'échantillonnage pondéré pour gérer efficacement le déséquilibre des classes. Notre méthode atteint un score de pointe de 68,10 % sur l'ensemble de données ICBHI 2017, surpassant les approches de référence existantes basées sur les CNN et les architectures hybrides. Plus important encore, elle atteint une sensibilité de 68,31 %, une amélioration cruciale pour un dépistage clinique fiable. Une analyse plus poussée utilisant les visualisations t-SNE et les cartes d'attention confirme que le modèle apprend des caractéristiques robustes et discriminantes plutôt que de mémoriser le bruit de fond.
English
Respiratory sound classification is hindered by the limited size, high noise levels, and severe class imbalance of benchmark datasets like ICBHI 2017. While Transformer-based models offer powerful feature extraction capabilities, they are prone to overfitting and often converge to sharp minima in the loss landscape when trained on such constrained medical data. To address this, we introduce a framework that enhances the Audio Spectrogram Transformer (AST) using Sharpness-Aware Minimization (SAM). Instead of merely minimizing the training loss, our approach optimizes the geometry of the loss surface, guiding the model toward flatter minima that generalize better to unseen patients. We also implement a weighted sampling strategy to handle class imbalance effectively. Our method achieves a state-of-the-art score of 68.10% on the ICBHI 2017 dataset, outperforming existing CNN and hybrid baselines. More importantly, it reaches a sensitivity of 68.31%, a crucial improvement for reliable clinical screening. Further analysis using t-SNE and attention maps confirms that the model learns robust, discriminative features rather than memorizing background noise.