기하학 인식 최적화를 통한 호흡음 분류: SAM 최적화 오디오 스펙트로그램 트랜스포머의 민감도 향상
Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers
December 27, 2025
저자: Atakan Işık, Selin Vulga Işık, Ahmet Feridun Işık, Mahşuk Taylan
cs.AI
초록
호흡음 분류는 ICBHI 2017과 같은 벤치마크 데이터셋의 제한된 크기, 높은 노이즈 수준, 심각한 클래스 불균형으로 인해 어려움을 겪고 있습니다. Transformer 기반 모델은 강력한 특징 추출 능력을 제공하지만, 이러한 제한된 의료 데이터로 학습할 때 과적합되기 쉽고 손실 함수 지형상 날카로운 최소점으로 수렴하는 경향이 있습니다. 이를 해결하기 위해 우리는 Sharpness-Aware Minimization(SAM)을 사용하여 Audio Spectrogram Transformer(AST)를 향상시키는 프레임워크를 제안합니다. 우리의 접근법은 단순히 학습 손실을 최소화하는 대신, 손실 표면의 기하학적 구조를 최적화하여 보지 않은 환자 데이터에 대해 더 잘 일반화되는 평평한 최소점으로 모델을 이끕니다. 또한 클래스 불균형을 효과적으로 처리하기 위해 가중치 샘플링 전략을 구현했습니다. 우리의 방법은 ICBHI 2017 데이터셋에서 68.10%의 최첨단 성적을 달성하여 기존 CNN 및 하이브리드 기준선 모델들을 능가합니다. 더 중요하게는 신뢰할 수 있는 임상 스크리닝에至关重要的한 개선인 68.31%의 민감도에 도달했습니다. t-SNE와 어텐션 맵을 활용한 추가 분석을 통해 이 모델이 배경 노이즈를 단순히 암기하는 것이 아니라 강건하고 판별력 있는 특징을 학습함을 확인했습니다.
English
Respiratory sound classification is hindered by the limited size, high noise levels, and severe class imbalance of benchmark datasets like ICBHI 2017. While Transformer-based models offer powerful feature extraction capabilities, they are prone to overfitting and often converge to sharp minima in the loss landscape when trained on such constrained medical data. To address this, we introduce a framework that enhances the Audio Spectrogram Transformer (AST) using Sharpness-Aware Minimization (SAM). Instead of merely minimizing the training loss, our approach optimizes the geometry of the loss surface, guiding the model toward flatter minima that generalize better to unseen patients. We also implement a weighted sampling strategy to handle class imbalance effectively. Our method achieves a state-of-the-art score of 68.10% on the ICBHI 2017 dataset, outperforming existing CNN and hybrid baselines. More importantly, it reaches a sensitivity of 68.31%, a crucial improvement for reliable clinical screening. Further analysis using t-SNE and attention maps confirms that the model learns robust, discriminative features rather than memorizing background noise.