ChatPaper.aiChatPaper

밀도 적응형 주의 기반 음성 네트워크: 정신 건강 장애를 위한 특징 이해 향상

Density Adaptive Attention-based Speech Network: Enhancing Feature Understanding for Mental Health Disorders

August 31, 2024
저자: Georgios Ioannides, Adrian Kieback, Aman Chadha, Aaron Elkins
cs.AI

초록

음성 기반 우울증 감지는 각 개인별로 독특하게 나타나며 데이터 부족으로 자동 감지에 상당한 어려움을 겪습니다. 이러한 도전에 대응하여, 우리는 오디오 특징 추출 및 우울증 감지를 위한 파라미터 효율적이고 설명 가능한 두 가지 모델인 DAAMAudioCNNLSTM과 DAAMAudioTransformer을 소개합니다. DAAMAudioCNNLSTM은 다중 헤드 밀도 적응 주의 메커니즘(DAAM)을 갖춘 새로운 CNN-LSTM 프레임워크로, 정보 전달적인 음성 세그먼트에 동적으로 초점을 맞춥니다. DAAMAudioTransformer은 CNN-LSTM 아키텍처 대신 트랜스포머 인코더를 활용하며, 동일한 DAAM 모듈을 통해 강화된 주의와 해석 가능성을 통합합니다. 이러한 접근 방식은 감지의 견고성과 해석 가능성을 향상시킬 뿐만 아니라, DAIC-WOZ 데이터셋에서 DAAMAudioCNNLSTM의 F1 매크로 점수가 0.702이고 DAAMAudioTransformer의 F1 매크로 점수가 0.72로 최첨단 성능을 달성합니다. 이전 방법과 달리 훈련/검증 중 모음 위치 및 화자 정보와 같은 보조 정보에 의존하지 않습니다. 음성 신호를 활용한 우울증 감지에 대한 이러한 모델의 상당한 설명 가능성과 효율성은 더 신뢰할 수 있고 임상적으로 유용한 진단 도구로의 진전을 약속하며, 음성 및 정신 건강 관리 분야에서 유망한 발전을 나타냅니다. 이 분야에서의 추가 연구를 촉진하기 위해 우리의 코드를 공개적으로 제공합니다.
English
Speech-based depression detection poses significant challenges for automated detection due to its unique manifestation across individuals and data scarcity. Addressing these challenges, we introduce DAAMAudioCNNLSTM and DAAMAudioTransformer, two parameter efficient and explainable models for audio feature extraction and depression detection. DAAMAudioCNNLSTM features a novel CNN-LSTM framework with multi-head Density Adaptive Attention Mechanism (DAAM), focusing dynamically on informative speech segments. DAAMAudioTransformer, leveraging a transformer encoder in place of the CNN-LSTM architecture, incorporates the same DAAM module for enhanced attention and interpretability. These approaches not only enhance detection robustness and interpretability but also achieve state-of-the-art performance: DAAMAudioCNNLSTM with an F1 macro score of 0.702 and DAAMAudioTransformer with an F1 macro score of 0.72 on the DAIC-WOZ dataset, without reliance on supplementary information such as vowel positions and speaker information during training/validation as in previous approaches. Both models' significant explainability and efficiency in leveraging speech signals for depression detection represent a leap towards more reliable, clinically useful diagnostic tools, promising advancements in speech and mental health care. To foster further research in this domain, we make our code publicly available.

Summary

AI-Generated Summary

PDF43November 16, 2024