Integración de Modelos de Lenguaje Grandes en una Arquitectura Tri-Modal para la Clasificación Automatizada de la Depresión

Resumen

El Trastorno Depresivo Mayor (TDM) es una afección de salud mental generalizada que afecta a 300 millones de personas en todo el mundo. Este trabajo presenta una novedosa arquitectura de fusión a nivel de modelo basada en BiLSTM para la clasificación binaria de la depresión a partir de grabaciones de entrevistas clínicas. La arquitectura propuesta incorpora Coeficientes Cepstrales de Frecuencia Melódica, Unidades de Acción Facial, y utiliza un modelo GPT-4 basado en aprendizaje de dos disparos para procesar datos de texto. Este es el primer trabajo en incorporar grandes modelos de lenguaje en una arquitectura multimodal para esta tarea. Obtiene resultados impresionantes en la división de validación cruzada del Desafío DAIC-WOZ AVEC 2016 y en la división de validación cruzada de Dejar-A-Un-Sujeto-Afuera, superando a todos los modelos de referencia y a múltiples modelos de vanguardia. En las pruebas de Dejar-A-Un-Sujeto-Afuera, logra una precisión del 91.01%, un puntaje F1 del 85.95%, una precisión del 80%, y una exhaustividad del 92.86%.

English

Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.

Integración de Modelos de Lenguaje Grandes en una Arquitectura Tri-Modal para la Clasificación Automatizada de la Depresión

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

Resumen

Support