ChatPaper.aiChatPaper

CBT-Bench:認知行動療法支援における大規模言語モデルの評価

CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy

October 17, 2024
著者: Mian Zhang, Xianjun Yang, Xinlu Zhang, Travis Labrum, Jamie C. Chiu, Shaun M. Eack, Fei Fang, William Yang Wang, Zhiyu Zoey Chen
cs.AI

要旨

現在の患者のニーズと利用可能な精神保健支援との間には、著しいギャップがあります。本論文では、大規模言語モデル(LLMs)を活用して専門家の精神療法を支援する可能性を徹底的に検討することを目的としています。このため、認知行動療法(CBT)支援の体系的評価のための新しいベンチマークであるCBT-BENCHを提案します。CBT-BENCHには、次の3つのレベルのタスクが含まれています。I:基本的なCBT知識習得、複数選択問題のタスクを含む。II:認知モデル理解、認知のゆがみ分類、主要な中核信念分類、および詳細な中核信念分類のタスクを含む。III:治療的応答生成、CBTセッションにおける患者の発言への応答生成のタスクを含む。これらのタスクは、AI支援を通じて強化される可能性のあるCBTの主要な側面を網羅しており、同時に基本的な知識の暗記から実際の治療的対話への関与までの能力要件の階層構造を概説しています。私たちは、当該ベンチマークで代表的なLLMsを評価しました。実験結果は、LLMsがCBTの知識を暗記する際には優れた性能を示す一方、患者の認知構造を深く分析し効果的な応答を生成する複雑な実世界シナリオでは不十分であることを示し、今後の潜在的な課題を示唆しています。
English
There is a significant gap between patient needs and available mental health support today. In this paper, we aim to thoroughly examine the potential of using Large Language Models (LLMs) to assist professional psychotherapy. To this end, we propose a new benchmark, CBT-BENCH, for the systematic evaluation of cognitive behavioral therapy (CBT) assistance. We include three levels of tasks in CBT-BENCH: I: Basic CBT knowledge acquisition, with the task of multiple-choice questions; II: Cognitive model understanding, with the tasks of cognitive distortion classification, primary core belief classification, and fine-grained core belief classification; III: Therapeutic response generation, with the task of generating responses to patient speech in CBT therapy sessions. These tasks encompass key aspects of CBT that could potentially be enhanced through AI assistance, while also outlining a hierarchy of capability requirements, ranging from basic knowledge recitation to engaging in real therapeutic conversations. We evaluated representative LLMs on our benchmark. Experimental results indicate that while LLMs perform well in reciting CBT knowledge, they fall short in complex real-world scenarios requiring deep analysis of patients' cognitive structures and generating effective responses, suggesting potential future work.

Summary

AI-Generated Summary

PDF42November 16, 2024