ChatPaper.aiChatPaper

Rede de Fala com Atenção Adaptativa à Densidade: Melhorando a Compreensão de Características para Transtornos de Saúde Mental

Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

August 31, 2024
Autores: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI

Resumo

A detecção de depressão baseada em fala apresenta desafios significativos para a detecção automatizada devido à sua manifestação única entre indivíduos e à escassez de dados. Para lidar com esses desafios, apresentamos o DAAMAudioCNNLSTM e o DAAMAudioTransformer, dois modelos eficientes em parâmetros e explicáveis para extração de características de áudio e detecção de depressão. O DAAMAudioCNNLSTM apresenta uma estrutura inovadora CNN-LSTM com o mecanismo de atenção adaptativa à densidade de várias cabeças (DAAM), focando dinamicamente em segmentos de fala informativos. O DAAMAudioTransformer, que utiliza um codificador transformer no lugar da arquitetura CNN-LSTM, incorpora o mesmo módulo DAAM para atenção aprimorada e interpretabilidade. Essas abordagens não apenas aprimoram a robustez e interpretabilidade da detecção, mas também alcançam um desempenho de ponta: o DAAMAudioCNNLSTM com uma pontuação F1 macro de 0,702 e o DAAMAudioTransformer com uma pontuação F1 macro de 0,72 no conjunto de dados DAIC-WOZ, sem depender de informações suplementares, como posições de vogais e informações do locutor durante treinamento/validação, como em abordagens anteriores. A considerável explicabilidade e eficiência de ambos os modelos em aproveitar sinais de fala para detecção de depressão representam um avanço em direção a ferramentas diagnósticas mais confiáveis e clinicamente úteis, prometendo avanços na área de fala e saúde mental. Para incentivar pesquisas adicionais nesse domínio, disponibilizamos nosso código publicamente.
English
Speech-based depression detection poses significant challenges for automated detection due to its unique manifestation across individuals and data scarcity. Addressing these challenges, we introduce DAAMAudioCNNLSTM and DAAMAudioTransformer, two parameter efficient and explainable models for audio feature extraction and depression detection. DAAMAudioCNNLSTM features a novel CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM), focusing dynamically on informative speech segments. DAAMAudioTransformer, leveraging a transformer encoder in place of the CNN-LSTM architecture, incorporates the same DAAM module for enhanced attention and interpretability. These approaches not only enhance detection robustness and interpretability but also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the DAIC-WOZ dataset, without reliance on supplementary information such as vowel positions and speaker information during training/validation as in previous approaches. Both models' significant explainability and efficiency in leveraging speech signals for depression detection represent a leap towards more reliable, clinically useful diagnostic tools, promising advancements in speech and mental health care. To foster further research in this domain, we make our code publicly available.

Summary

AI-Generated Summary

PDF43November 16, 2024