Red de Voz con Atención Adaptativa Densa: Mejorando la Comprensión de Características para Trastornos de Salud Mental
Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders
August 31, 2024
Autores: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI
Resumen
La detección de la depresión basada en el habla plantea desafíos significativos para la detección automatizada debido a su manifestación única en cada individuo y a la escasez de datos. Para abordar estos desafíos, presentamos DAAMAudioCNNLSTM y DAAMAudioTransformer, dos modelos eficientes en parámetros y explicativos para la extracción de características de audio y la detección de la depresión. DAAMAudioCNNLSTM presenta un novedoso marco de trabajo CNN-LSTM con un Mecanismo de Atención Adaptativa de Densidad Multi-cabeza (DAAM), que se enfoca dinámicamente en segmentos de habla informativos. DAAMAudioTransformer, que utiliza un codificador transformer en lugar de la arquitectura CNN-LSTM, incorpora el mismo módulo DAAM para una atención e interpretabilidad mejoradas. Estos enfoques no solo mejoran la robustez y la interpretabilidad de la detección, sino que también logran un rendimiento de vanguardia: DAAMAudioCNNLSTM con un puntaje F1 macro de 0.702 y DAAMAudioTransformer con un puntaje F1 macro de 0.72 en el conjunto de datos DAIC-WOZ, sin depender de información adicional como posiciones de vocales e información del hablante durante el entrenamiento/validación, como en enfoques anteriores. La notable explicabilidad y eficiencia de ambos modelos en el aprovechamiento de señales de habla para la detección de la depresión representan un avance hacia herramientas diagnósticas más confiables y útiles clínicamente, prometiendo avances en el cuidado de la salud mental y del habla. Para fomentar una mayor investigación en este ámbito, ponemos nuestro código a disposición del público.
English
Speech-based depression detection poses significant challenges for automated
detection due to its unique manifestation across individuals and data scarcity.
Addressing these challenges, we introduce DAAMAudioCNNLSTM and
DAAMAudioTransformer, two parameter efficient and explainable models for audio
feature extraction and depression detection. DAAMAudioCNNLSTM features a novel
CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM),
focusing dynamically on informative speech segments. DAAMAudioTransformer,
leveraging a transformer encoder in place of the CNN-LSTM architecture,
incorporates the same DAAM module for enhanced attention and interpretability.
These approaches not only enhance detection robustness and interpretability but
also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro
score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the
DAIC-WOZ dataset, without reliance on supplementary information such as vowel
positions and speaker information during training/validation as in previous
approaches. Both models' significant explainability and efficiency in
leveraging speech signals for depression detection represent a leap towards
more reliable, clinically useful diagnostic tools, promising advancements in
speech and mental health care. To foster further research in this domain, we
make our code publicly available.Summary
AI-Generated Summary