ChatPaper.aiChatPaper

Integrando Modelos de Linguagem Grandes em uma Arquitetura Tri-Modal para Classificação Automatizada de Depressão

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

July 27, 2024
Autores: Santosh V. Patapati
cs.AI

Resumo

O Transtorno Depressivo Maior (TDM) é uma condição de saúde mental pervasiva que afeta 300 milhões de pessoas em todo o mundo. Este trabalho apresenta uma arquitetura de fusão de nível de modelo tri-modal baseada em BiLSTM para a classificação binária da depressão a partir de gravações de entrevistas clínicas. A arquitetura proposta incorpora Coeficientes Cepstrais de Frequência Mel, Unidades de Ação Facial e utiliza um modelo GPT-4 baseado em aprendizado de duas etapas para processar dados de texto. Este é o primeiro trabalho a incorporar grandes modelos de linguagem em uma arquitetura multimodal para esta tarefa. Ele alcança resultados impressionantes na divisão de validação cruzada do Desafio DAIC-WOZ AVEC 2016 e na divisão de validação cruzada Leave-One-Subject-Out, superando todos os modelos de referência e vários modelos de ponta. No teste Leave-One-Subject-Out, ele alcança uma precisão de 91,01%, um F1-Score de 85,95%, uma precisão de 80% e uma revocação de 92,86%.
English
Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.

Summary

AI-Generated Summary

PDF599November 28, 2024