ChatPaper.aiChatPaper

Réseau de traitement de la parole basé sur l'attention adaptative à la densité : Amélioration de la compréhension des caractéristiques pour les troubles de santé mentale

Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

August 31, 2024
Auteurs: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI

Résumé

La détection de la dépression basée sur la parole pose des défis importants pour la détection automatisée en raison de sa manifestation unique chez les individus et de la rareté des données. Pour relever ces défis, nous introduisons DAAMAudioCNNLSTM et DAAMAudioTransformer, deux modèles efficaces en termes de paramètres et explicatifs pour l'extraction des caractéristiques audio et la détection de la dépression. DAAMAudioCNNLSTM présente un cadre novateur CNN-LSTM avec un mécanisme d'attention adaptatif à densité multiple (DAAM), se concentrant dynamiquement sur les segments de parole informatifs. DAAMAudioTransformer, en utilisant un encodeur transformer à la place de l'architecture CNN-LSTM, intègre le même module DAAM pour une attention et une interprétabilité accrues. Ces approches améliorent non seulement la robustesse de la détection et son interprétabilité, mais atteignent également des performances de pointe : DAAMAudioCNNLSTM avec un score F1 macro de 0,702 et DAAMAudioTransformer avec un score F1 macro de 0,72 sur l'ensemble de données DAIC-WOZ, sans recourir à des informations supplémentaires telles que les positions des voyelles et les informations sur les locuteurs lors de l'entraînement/validation comme dans les approches précédentes. L'explicabilité significative et l'efficacité des deux modèles dans l'utilisation des signaux de parole pour la détection de la dépression représentent un pas en avant vers des outils de diagnostic plus fiables et cliniquement utiles, offrant des avancées prometteuses dans les domaines de la parole et de la santé mentale. Pour encourager davantage la recherche dans ce domaine, nous mettons notre code à disposition du public.
English
Speech-based depression detection poses significant challenges for automated detection due to its unique manifestation across individuals and data scarcity. Addressing these challenges, we introduce DAAMAudioCNNLSTM and DAAMAudioTransformer, two parameter efficient and explainable models for audio feature extraction and depression detection. DAAMAudioCNNLSTM features a novel CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM), focusing dynamically on informative speech segments. DAAMAudioTransformer, leveraging a transformer encoder in place of the CNN-LSTM architecture, incorporates the same DAAM module for enhanced attention and interpretability. These approaches not only enhance detection robustness and interpretability but also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the DAIC-WOZ dataset, without reliance on supplementary information such as vowel positions and speaker information during training/validation as in previous approaches. Both models' significant explainability and efficiency in leveraging speech signals for depression detection represent a leap towards more reliable, clinically useful diagnostic tools, promising advancements in speech and mental health care. To foster further research in this domain, we make our code publicly available.

Summary

AI-Generated Summary

PDF43November 16, 2024