Integration von großen Sprachmodellen in eine Tri-Modale Architektur zur automatisierten Klassifizierung von Depressionen.
Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification
July 27, 2024
Autoren: Santosh V. Patapati
cs.AI
Zusammenfassung
Die Major Depressive Disorder (MDD) ist ein weit verbreiteter psychischer Gesundheitszustand, der 300 Millionen Menschen weltweit betrifft. Diese Arbeit stellt eine neuartige, auf BiLSTM basierende tri-modale Modell-Ebenen-Fusionsarchitektur für die binäre Klassifizierung von Depressionen anhand klinischer Interviewaufnahmen vor. Die vorgeschlagene Architektur integriert Mel Frequency Cepstral Coefficients, Facial Action Units und verwendet ein auf Zwei-Schuss-Lernen basierendes GPT-4-Modell zur Verarbeitung von Textdaten. Dies ist die erste Arbeit, die große Sprachmodelle in eine multi-modale Architektur für diese Aufgabe integriert. Sie erzielt beeindruckende Ergebnisse auf dem DAIC-WOZ AVEC 2016 Challenge Kreuzvalidierungs-Split und dem Leave-One-Subject-Out Kreuzvalidierungs-Split und übertrifft alle Basislinienmodelle sowie mehrere State-of-the-Art-Modelle. Im Leave-One-Subject-Out-Test erreicht sie eine Genauigkeit von 91,01%, einen F1-Score von 85,95%, eine Präzision von 80% und eine Erkennungsrate von 92,86%.
English
Major Depressive Disorder (MDD) is a pervasive mental health condition that
affects 300 million people worldwide. This work presents a novel, BiLSTM-based
tri-modal model-level fusion architecture for the binary classification of
depression from clinical interview recordings. The proposed architecture
incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses
a two-shot learning based GPT-4 model to process text data. This is the first
work to incorporate large language models into a multi-modal architecture for
this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge
cross-validation split and Leave-One-Subject-Out cross-validation split,
surpassing all baseline models and multiple state-of-the-art models. In
Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score
of 85.95%, a precision of 80%, and a recall of 92.86%.Summary
AI-Generated Summary