Rete neurale per il riconoscimento del discorso basata sull'attenzione adattiva alla densità: Miglioramento della comprensione delle caratteristiche per i disturbi della salute mentale
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders
August 31, 2024
Autori: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI
Abstract
La rilevazione della depressione basata sul parlato presenta significativi ostacoli per la rilevazione automatizzata a causa della sua manifestazione unica tra individui e della scarsità di dati. Affrontando tali sfide, presentiamo DAAMAudioCNNLSTM e DAAMAudioTransformer, due modelli efficienti in termini di parametri e spiegabili per l'estrazione delle caratteristiche audio e la rilevazione della depressione. DAAMAudioCNNLSTM presenta un innovativo framework CNN-LSTM con il meccanismo di attenzione adattiva a densità multi-testa (DAAM), che si concentra dinamicamente su segmenti di discorso informativi. DAAMAudioTransformer, sfruttando un codificatore transformer al posto dell'architettura CNN-LSTM, incorpora lo stesso modulo DAAM per un'attenzione e interpretabilità migliorate. Questi approcci non solo migliorano la robustezza della rilevazione e l'interpretabilità, ma raggiungono anche prestazioni all'avanguardia: DAAMAudioCNNLSTM con un punteggio F1 macro di 0,702 e DAAMAudioTransformer con un punteggio F1 macro di 0,72 sul dataset DAIC-WOZ, senza dipendenza da informazioni supplementari come posizioni delle vocali e informazioni sugli speaker durante addestramento/validazione come nei precedenti approcci. La significativa spiegabilità e l'efficienza di entrambi i modelli nel sfruttare i segnali vocali per la rilevazione della depressione rappresentano un passo avanti verso strumenti diagnostici più affidabili e utili clinicamente, promettendo progressi nel settore della salute mentale e del parlato. Per favorire ulteriori ricerche in questo ambito, rendiamo il nostro codice pubblicamente disponibile.
English
Speech-based depression detection poses significant challenges for automated
detection due to its unique manifestation across individuals and data scarcity.
Addressing these challenges, we introduce DAAMAudioCNNLSTM and
DAAMAudioTransformer, two parameter efficient and explainable models for audio
feature extraction and depression detection. DAAMAudioCNNLSTM features a novel
CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM),
focusing dynamically on informative speech segments. DAAMAudioTransformer,
leveraging a transformer encoder in place of the CNN-LSTM architecture,
incorporates the same DAAM module for enhanced attention and interpretability.
These approaches not only enhance detection robustness and interpretability but
also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro
score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the
DAIC-WOZ dataset, without reliance on supplementary information such as vowel
positions and speaker information during training/validation as in previous
approaches. Both models' significant explainability and efficiency in
leveraging speech signals for depression detection represent a leap towards
more reliable, clinically useful diagnostic tools, promising advancements in
speech and mental health care. To foster further research in this domain, we
make our code publicly available.