Otimização Consciente da Geometria para Classificação de Sons Respiratórios: Aprimorando a Sensibilidade com Transformadores de Espectrograma de Áudio Otimizados por SAM

Resumo

A classificação de sons respiratórios é prejudicada pelo tamanho limitado, pelos altos níveis de ruído e pelo grave desequilíbrio entre classes de conjuntos de dados de referência, como o ICBHI 2017. Embora os modelos baseados em Transformers ofereçam capacidades poderosas de extração de características, eles são propensos ao sobreajuste e frequentemente convergem para mínimos agudos no relevo da função de perda quando treinados com esses dados médicos restritos. Para resolver isso, introduzimos uma estrutura que aprimora o Audio Spectrogram Transformer (AST) usando a Sharpness-Aware Minimization (SAM). Em vez de apenas minimizar a perda de treinamento, nossa abordagem otimiza a geometria da superfície de perda, guiando o modelo para mínimos mais planos que generalizam melhor para pacientes não vistos. Também implementamos uma estratégia de amostragem ponderada para lidar com o desequilíbrio de classes de forma eficaz. Nosso método alcança um estado da arte de 68,10% no conjunto de dados ICBHI 2017, superando as linhas de base existentes baseadas em CNN e modelos híbridos. Mais importante ainda, atinge uma sensibilidade de 68,31%, uma melhoria crucial para uma triagem clínica confiável. Uma análise mais aprofundada usando mapas de atenção e t-SNE confirma que o modelo aprende características robustas e discriminativas, em vez de memorizar o ruído de fundo.

English

Respiratory sound classification is hindered by the limited size, high noise levels, and severe class imbalance of benchmark datasets like ICBHI 2017. While Transformer-based models offer powerful feature extraction capabilities, they are prone to overfitting and often converge to sharp minima in the loss landscape when trained on such constrained medical data. To address this, we introduce a framework that enhances the Audio Spectrogram Transformer (AST) using Sharpness-Aware Minimization (SAM). Instead of merely minimizing the training loss, our approach optimizes the geometry of the loss surface, guiding the model toward flatter minima that generalize better to unseen patients. We also implement a weighted sampling strategy to handle class imbalance effectively. Our method achieves a state-of-the-art score of 68.10% on the ICBHI 2017 dataset, outperforming existing CNN and hybrid baselines. More importantly, it reaches a sensitivity of 68.31%, a crucial improvement for reliable clinical screening. Further analysis using t-SNE and attention maps confirms that the model learns robust, discriminative features rather than memorizing background noise.

Otimização Consciente da Geometria para Classificação de Sons Respiratórios: Aprimorando a Sensibilidade com Transformadores de Espectrograma de Áudio Otimizados por SAM

Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers

Resumo

Support