ChatPaper.aiChatPaper

密度適応型アテンションベース音声ネットワーク:精神健康障害の特徴理解の向上

Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

August 31, 2024
著者: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI

要旨

音声に基づくうつ病検出は、個々の特徴やデータの希少性により、自動検出において著しい課題を抱えています。これらの課題に対処するために、音声特徴抽出とうつ病検出のための2つのパラメータ効率的で説明可能なモデルであるDAAMAudioCNNLSTMとDAAMAudioTransformerを紹介します。DAAMAudioCNNLSTMは、情報のある音声セグメントに動的に焦点を当てるマルチヘッド密度適応的注意メカニズム(DAAM)を備えた革新的なCNN-LSTMフレームワークを特徴としています。DAAMAudioTransformerは、CNN-LSTMアーキテクチャの代わりにトランスフォーマーエンコーダを活用し、同じDAAMモジュールを組み込んで注意力と解釈性を向上させています。これらのアプローチは、検出の堅牢性と解釈性を向上させるだけでなく、DAIC-WOZデータセットにおいてDAAMAudioCNNLSTMがF1マクロスコア0.702、DAAMAudioTransformerがF1マクロスコア0.72を達成し、以前のアプローチと異なり、母音の位置や話者情報などの補足情報に依存せずにトレーニング/バリデーションを行っています。両モデルの顕著な説明可能性と音声信号を活用した効率性は、より信頼性の高い臨床で有用な診断ツールに向けた飛躍を示し、音声とメンタルヘルスケアの分野での進歩を約束しています。この分野におけるさらなる研究を促進するために、コードを公開しています。
English
Speech-based depression detection poses significant challenges for automated detection due to its unique manifestation across individuals and data scarcity. Addressing these challenges, we introduce DAAMAudioCNNLSTM and DAAMAudioTransformer, two parameter efficient and explainable models for audio feature extraction and depression detection. DAAMAudioCNNLSTM features a novel CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM), focusing dynamically on informative speech segments. DAAMAudioTransformer, leveraging a transformer encoder in place of the CNN-LSTM architecture, incorporates the same DAAM module for enhanced attention and interpretability. These approaches not only enhance detection robustness and interpretability but also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the DAIC-WOZ dataset, without reliance on supplementary information such as vowel positions and speaker information during training/validation as in previous approaches. Both models' significant explainability and efficiency in leveraging speech signals for depression detection represent a leap towards more reliable, clinically useful diagnostic tools, promising advancements in speech and mental health care. To foster further research in this domain, we make our code publicly available.

Summary

AI-Generated Summary

PDF43November 16, 2024