ChatPaper.aiChatPaper

大規模言語モデルを三モーダルアーキテクチャに統合した自動的うつ病分類

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

July 27, 2024
著者: Santosh V. Patapati
cs.AI

要旨

大うつ病性障害(MDD)は、世界中で3億人に影響を及ぼす広範な精神疾患です。本研究では、臨床面接記録からうつ病を二値分類するための、BiLSTMベースの新規なトリモーダルモデルレベル融合アーキテクチャを提案します。提案アーキテクチャは、メル周波数ケプストラム係数、顔面動作単位を組み込み、テキストデータ処理には2ショット学習ベースのGPT-4モデルを使用します。本タスクにおいて大規模言語モデルをマルチモーダルアーキテクチャに組み込んだ初めての研究であり、DAIC-WOZ AVEC 2016チャレンジのクロスバリデーション分割およびLeave-One-Subject-Outクロスバリデーション分割において、全てのベースラインモデルおよび複数の最先端モデルを上回る印象的な結果を達成しました。Leave-One-Subject-Outテストでは、精度91.01%、F1スコア85.95%、適合率80%、再現率92.86%を記録しています。
English
Major Depressive Disorder (MDD) is a pervasive mental health condition that affects 300 million people worldwide. This work presents a novel, BiLSTM-based tri-modal model-level fusion architecture for the binary classification of depression from clinical interview recordings. The proposed architecture incorporates Mel Frequency Cepstral Coefficients, Facial Action Units, and uses a two-shot learning based GPT-4 model to process text data. This is the first work to incorporate large language models into a multi-modal architecture for this task. It achieves impressive results on the DAIC-WOZ AVEC 2016 Challenge cross-validation split and Leave-One-Subject-Out cross-validation split, surpassing all baseline models and multiple state-of-the-art models. In Leave-One-Subject-Out testing, it achieves an accuracy of 91.01%, an F1-Score of 85.95%, a precision of 80%, and a recall of 92.86%.

Summary

AI-Generated Summary

PDF599November 28, 2024