ChatPaper.aiChatPaper

Integrazione di Modelli Linguistici di Grande Scala in un'Architettura Tri-Modale per la Classificazione Automatica della Depressione

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

July 27, 2024
Autori: Santosh V. Patapati
cs.AI

Abstract

Il Disturbo Depressivo Maggiore (MDD) è una condizione di salute mentale pervasiva che colpisce 300 milioni di persone in tutto il mondo. Questo lavoro presenta un'architettura innovativa di fusione a livello di modello basata su BiLSTM per la classificazione binaria della depressione a partire da registrazioni di interviste cliniche. L'architettura proposta incorpora i Coefficienti Cepstrali della Frequenza Mel (MFCC), le Unità di Azione Facciale (Facial Action Units) e utilizza un modello GPT-4 basato su apprendimento a due colpi (two-shot learning) per elaborare i dati testuali. Si tratta del primo lavoro che integra modelli linguistici di grandi dimensioni in un'architettura multi-modale per questo compito. I risultati ottenuti sono impressionanti sia nella suddivisione cross-validata della sfida DAIC-WOZ AVEC 2016 che nella cross-validazione Leave-One-Subject-Out, superando tutti i modelli di base e numerosi modelli all'avanguardia. Nei test Leave-One-Subject-Out, l'architettura raggiunge un'accuratezza del 91,01%, un F1-Score dell'85,95%, una precisione dell'80% e una recall del 92,86%.
English
Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.
PDF589November 28, 2024