ChatPaper.aiChatPaper

Intégration de modèles de langage de grande taille dans une architecture trimodale pour la classification automatisée de la dépression

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

July 27, 2024
Auteurs: Santosh V. Patapati
cs.AI

Résumé

Le trouble dépressif majeur (TDM) est une affection mentale répandue qui touche 300 millions de personnes dans le monde. Ce travail présente une architecture novatrice de fusion au niveau modèle, basée sur un BiLSTM, pour la classification binaire de la dépression à partir d'enregistrements d'entretiens cliniques. L'architecture proposée intègre les coefficients cepstraux sur la fréquence de Mel, les unités d'action faciale, et utilise un modèle GPT-4 basé sur l'apprentissage en deux étapes pour traiter les données textuelles. Il s'agit de la première étude à intégrer des modèles de langage de grande envergure dans une architecture multimodale pour cette tâche. Elle obtient des résultats impressionnants sur les partitions de validation croisée du défi DAIC-WOZ AVEC 2016 et de validation croisée Leave-One-Subject-Out, surpassant tous les modèles de référence ainsi que plusieurs modèles de pointe. Dans les tests Leave-One-Subject-Out, elle atteint une précision de 91,01 %, un score F1 de 85,95 %, une précision de 80 % et un rappel de 92,86 %.
English
Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.

Summary

AI-Generated Summary

PDF599November 28, 2024