ChatPaper.aiChatPaper

Сеть адаптивного внимания на основе плотности: улучшение понимания признаков для расстройств психического здоровья

Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

August 31, 2024
Авторы: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI

Аннотация

Выявление депрессии на основе речи представляет существенные трудности для автоматизированного обнаружения из-за ее уникального проявления у различных людей и недостатка данных. Для решения этих проблем мы представляем DAAMAudioCNNLSTM и DAAMAudioTransformer - две параметрически эффективные и объяснимые модели для извлечения аудиофункций и выявления депрессии. DAAMAudioCNNLSTM представляет собой новую структуру CNN-LSTM с механизмом многоголовочной адаптивной плотности внимания (DAAM), динамически фокусирующимся на информативных сегментах речи. DAAMAudioTransformer, используя кодировщик трансформера вместо архитектуры CNN-LSTM, включает тот же модуль DAAM для улучшенного внимания и интерпретируемости. Эти подходы не только повышают устойчивость и интерпретируемость обнаружения, но и достигают передовых результатов: DAAMAudioCNNLSTM с макро F1-оценкой 0,702 и DAAMAudioTransformer с макро F1-оценкой 0,72 на наборе данных DAIC-WOZ, без использования дополнительной информации, такой как положения гласных и информация о дикторе во время обучения/валидации, как в предыдущих подходах. Значительная объяснимость и эффективность обоих моделей в использовании речевых сигналов для выявления депрессии представляют собой шаг к более надежным, клинически полезным диагностическим инструментам, обещающим прогресс в области речи и психического здоровья. Для поощрения дальнейших исследований в этой области мы предоставляем наш код публично доступным.
English
Speech-based depression detection poses significant challenges for automated detection due to its unique manifestation across individuals and data scarcity. Addressing these challenges, we introduce DAAMAudioCNNLSTM and DAAMAudioTransformer, two parameter efficient and explainable models for audio feature extraction and depression detection. DAAMAudioCNNLSTM features a novel CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM), focusing dynamically on informative speech segments. DAAMAudioTransformer, leveraging a transformer encoder in place of the CNN-LSTM architecture, incorporates the same DAAM module for enhanced attention and interpretability. These approaches not only enhance detection robustness and interpretability but also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the DAIC-WOZ dataset, without reliance on supplementary information such as vowel positions and speaker information during training/validation as in previous approaches. Both models' significant explainability and efficiency in leveraging speech signals for depression detection represent a leap towards more reliable, clinically useful diagnostic tools, promising advancements in speech and mental health care. To foster further research in this domain, we make our code publicly available.

Summary

AI-Generated Summary

PDF43November 16, 2024