Density Adaptief Aandacht-Gebaseerd Spraaknetwerk: Verbetering van Featurebegrip voor Geestelijke Gezondheidsstoornissen
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders
August 31, 2024
Auteurs: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI
Samenvatting
Spraakgebaseerde depressiedetectie vormt aanzienlijke uitdagingen voor geautomatiseerde detectie vanwege de unieke manifestatie ervan tussen individuen en de schaarste aan data. Om deze uitdagingen aan te pakken, introduceren we DAAMAudioCNNLSTM en DAAMAudioTransformer, twee parameter-efficiënte en verklaarbare modellen voor audiofeature-extractie en depressiedetectie. DAAMAudioCNNLSTM beschikt over een nieuw CNN-LSTM-raamwerk met een multi-head Density Adaptive Attention Mechanism (DAAM), dat dynamisch focust op informatieve spraaksegmenten. DAAMAudioTransformer, dat gebruikmaakt van een transformer-encoder in plaats van de CNN-LSTM-architectuur, integreert dezelfde DAAM-module voor verbeterde aandacht en interpreteerbaarheid. Deze benaderingen verbeteren niet alleen de robuustheid en interpreteerbaarheid van de detectie, maar behalen ook state-of-the-art prestaties: DAAMAudioCNNLSTM met een F1-macroscore van 0,702 en DAAMAudioTransformer met een F1-macroscore van 0,72 op de DAIC-WOZ-dataset, zonder afhankelijkheid van aanvullende informatie zoals klinkerposities en sprekersinformatie tijdens training/validatie, zoals in eerdere benaderingen. De aanzienlijke verklaarbaarheid en efficiëntie van beide modellen in het benutten van spraaksignalen voor depressiedetectie vertegenwoordigen een sprong richting betrouwbaardere, klinisch bruikbare diagnostische tools, wat belooft vooruitgang te bieden in spraak- en geestelijke gezondheidszorg. Om verder onderzoek in dit domein te bevorderen, stellen we onze code openbaar beschikbaar.
English
Speech-based depression detection poses significant challenges for automated
detection due to its unique manifestation across individuals and data scarcity.
Addressing these challenges, we introduce DAAMAudioCNNLSTM and
DAAMAudioTransformer, two parameter efficient and explainable models for audio
feature extraction and depression detection. DAAMAudioCNNLSTM features a novel
CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM),
focusing dynamically on informative speech segments. DAAMAudioTransformer,
leveraging a transformer encoder in place of the CNN-LSTM architecture,
incorporates the same DAAM module for enhanced attention and interpretability.
These approaches not only enhance detection robustness and interpretability but
also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro
score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the
DAIC-WOZ dataset, without reliance on supplementary information such as vowel
positions and speaker information during training/validation as in previous
approaches. Both models' significant explainability and efficiency in
leveraging speech signals for depression detection represent a leap towards
more reliable, clinically useful diagnostic tools, promising advancements in
speech and mental health care. To foster further research in this domain, we
make our code publicly available.Summary
AI-Generated Summary