Dichteadaptive Aufmerksamkeitsbasiertes Sprachnetzwerk: Verbesserung der Merkmalserfassung für psychische Störungen
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders
August 31, 2024
Autoren: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI
Zusammenfassung
Die sprachbasierte Depressionserkennung stellt aufgrund ihrer einzigartigen Manifestation bei verschiedenen Personen und der Datenknappheit erhebliche Herausforderungen für die automatisierte Erkennung dar. Um diesen Herausforderungen zu begegnen, stellen wir DAAMAudioCNNLSTM und DAAMAudioTransformer vor, zwei parameter-effiziente und erklärungsfähige Modelle zur Extraktion von Audio-Merkmalen und zur Depressionserkennung. DAAMAudioCNNLSTM bietet ein neuartiges CNN-LSTM-Framework mit einem Multi-Head Density Adaptive Attention Mechanism (DAAM), das dynamisch auf informative Sprachsegmente fokussiert. DAAMAudioTransformer, das einen Transformer-Encoder anstelle der CNN-LSTM-Architektur verwendet, integriert dasselbe DAAM-Modul für verbesserte Aufmerksamkeit und Interpretierbarkeit. Diese Ansätze verbessern nicht nur die Robustheit und Interpretierbarkeit der Erkennung, sondern erzielen auch eine Spitzenleistung: DAAMAudioCNNLSTM mit einem F1-Makro-Score von 0,702 und DAAMAudioTransformer mit einem F1-Makro-Score von 0,72 auf dem DAIC-WOZ-Datensatz, ohne auf zusätzliche Informationen wie Vokalpositionen und Sprecherinformationen während des Trainings/Validierung zurückzugreifen, wie es bei früheren Ansätzen der Fall war. Die signifikante Erklärbarkeit und Effizienz beider Modelle bei der Nutzung von Sprachsignalen zur Depressionserkennung stellen einen Fortschritt hin zu zuverlässigeren, klinisch nützlichen diagnostischen Werkzeugen dar und versprechen Fortschritte in der Sprach- und psychischen Gesundheitsversorgung. Um weitere Forschung in diesem Bereich zu fördern, stellen wir unseren Code öffentlich zur Verfügung.
English
Speech-based depression detection poses significant challenges for automated
detection due to its unique manifestation across individuals and data scarcity.
Addressing these challenges, we introduce DAAMAudioCNNLSTM and
DAAMAudioTransformer, two parameter efficient and explainable models for audio
feature extraction and depression detection. DAAMAudioCNNLSTM features a novel
CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM),
focusing dynamically on informative speech segments. DAAMAudioTransformer,
leveraging a transformer encoder in place of the CNN-LSTM architecture,
incorporates the same DAAM module for enhanced attention and interpretability.
These approaches not only enhance detection robustness and interpretability but
also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro
score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the
DAIC-WOZ dataset, without reliance on supplementary information such as vowel
positions and speaker information during training/validation as in previous
approaches. Both models' significant explainability and efficiency in
leveraging speech signals for depression detection represent a leap towards
more reliable, clinically useful diagnostic tools, promising advancements in
speech and mental health care. To foster further research in this domain, we
make our code publicly available.Summary
AI-Generated Summary