Интеграция больших языковых моделей в трёхмодальную архитектуру для автоматизированной классификации депрессии.
Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification
July 27, 2024
Авторы: Santosh V. Patapati
cs.AI
Аннотация
Мажорное депрессивное расстройство (MDD) - это распространенное психическое заболевание, затрагивающее 300 миллионов людей по всему миру. В данной работе представлена новая архитектура трехмодальной модели на основе BiLSTM для бинарной классификации депрессии по записям клинических интервью. Предложенная архитектура включает в себя коэффициенты мел-частотных кепстральных коэффициентов, единицы активности лица и использует модель GPT-4 на основе обучения с двумя примерами для обработки текстовых данных. Это первая работа, которая включает в себя большие языковые модели в мультимодальную архитектуру для данной задачи. Она достигает впечатляющих результатов на кросс-валидации DAIC-WOZ AVEC 2016 Challenge и кросс-валидации "Один субъект за пределами", превосходя все базовые модели и несколько передовых моделей. На тестировании "Один субъект за пределами" достигается точность 91,01%, F1-мера 85,95%, точность 80% и полнота 92,86%.
English
Major Depressive Disorder (MDD) is a pervasive mental health condition that
affects 300 million people worldwide. This work presents a novel, BiLSTM-based
tri-modal model-level fusion architecture for the binary classification of
depression from clinical interview recordings. The proposed architecture
incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses
a two-shot learning based GPT-4 model to process text data. This is the first
work to incorporate large language models into a multi-modal architecture for
this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge
cross-validation split and Leave-One-Subject-Out cross-validation split,
surpassing all baseline models and multiple state-of-the-art models. In
Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score
of 85.95%, a precision of 80%, and a recall of 92.86%.Summary
AI-Generated Summary