幾何学的構造を考慮した呼吸音分類の最適化:SAM最適化オーディオスペクトログラムトランスフォーマーによる感度向上
Geometry-Aware Optimization for Respiratory Sound Classification: Enhancing Sensitivity with SAM-Optimized Audio Spectrogram Transformers
December 27, 2025
著者: Atakan Işık, Selin Vulga Işık, Ahmet Feridun Işık, Mahşuk Taylan
cs.AI
要旨
呼吸音分類は、ICBHI 2017のようなベンチマークデータセットのデータサイズの限界、高ノイズレベル、深刻なクラス不均衡によって妨げられている。Transformerベースモデルは強力な特徴抽出能力を提供するが、このような制約の多い医療データで学習すると、過学習を起こしやすく、損失ランドスケープの急峻な最小値に収束しがちである。この問題に対処するため、我々はシャープネス意識最小化(SAM)を用いてAudio Spectrogram Transformer(AST)を強化するフレームワークを提案する。単に訓練損失を最小化するのではなく、本手法は損失面の幾何学的構造を最適化し、モデルを未見の患者データに対しても汎化性能の高い、より平坦な最小値へと導く。さらに、クラス不均衡を効果的に処理するための重み付きサンプリング戦略も実装する。我々の手法は、ICBHI 2017データセットにおいて68.10%という最新のスコアを達成し、既存のCNNおよびハイブリッドベースライン手法を上回った。より重要なことに、信頼性の高い臨床スクリーニングにとって極めて重要な改善である、68.31%の感度(感度)に到達した。t-SNEおよびアテンションマップを用いた詳細分析により、本モデルが背景ノイズを記憶するのではなく、ロバストで識別性の高い特徴を学習していることが確認された。
English
Respiratory sound classification is hindered by the limited size, high noise levels, and severe class imbalance of benchmark datasets like ICBHI 2017. While Transformer-based models offer powerful feature extraction capabilities, they are prone to overfitting and often converge to sharp minima in the loss landscape when trained on such constrained medical data. To address this, we introduce a framework that enhances the Audio Spectrogram Transformer (AST) using Sharpness-Aware Minimization (SAM). Instead of merely minimizing the training loss, our approach optimizes the geometry of the loss surface, guiding the model toward flatter minima that generalize better to unseen patients. We also implement a weighted sampling strategy to handle class imbalance effectively. Our method achieves a state-of-the-art score of 68.10% on the ICBHI 2017 dataset, outperforming existing CNN and hybrid baselines. More importantly, it reaches a sensitivity of 68.31%, a crucial improvement for reliable clinical screening. Further analysis using t-SNE and attention maps confirms that the model learns robust, discriminative features rather than memorizing background noise.