ChatPaper.aiChatPaper

Integratie van grote taalmodellen in een driemodale architectuur voor geautomatiseerde classificatie van depressie

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

July 27, 2024
Auteurs: Santosh V. Patapati
cs.AI

Samenvatting

Major Depressive Disorder (MDD) is een wijdverspreide psychische aandoening die wereldwijd 300 miljoen mensen treft. Dit werk presenteert een nieuwe, op BiLSTM gebaseerde tri-modale model-level fusie-architectuur voor de binaire classificatie van depressie op basis van opnames van klinische interviews. De voorgestelde architectuur integreert Mel Frequency Cepstral Coefficients, Facial Action Units, en maakt gebruik van een GPT-4 model gebaseerd op two-shot learning om tekstdata te verwerken. Dit is het eerste werk dat grote taalmodellen integreert in een multi-modale architectuur voor deze taak. Het behaalt indrukwekkende resultaten op de DAIC-WOZ AVEC 2016 Challenge cross-validatie split en de Leave-One-Subject-Out cross-validatie split, waarbij het alle baseline modellen en meerdere state-of-the-art modellen overtreft. In Leave-One-Subject-Out testen behaalt het een nauwkeurigheid van 91,01%, een F1-Score van 85,95%, een precisie van 80%, en een recall van 92,86%.
English
Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.
PDF589February 8, 2026