CBT-Bench: Evaluación de Modelos de Lenguaje Grandes en la Asistencia de la Terapia Cognitivo-Conductual
CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy
October 17, 2024
Autores: Mian Zhang, Xianjun Yang, Xinlu Zhang, Travis Labrum, Jamie C. Chiu, Shaun M. Eack, Fei Fang, William Yang Wang, Zhiyu Zoey Chen
cs.AI
Resumen
Existe una brecha significativa entre las necesidades de los pacientes y el apoyo disponible en salud mental en la actualidad. En este documento, nuestro objetivo es examinar a fondo el potencial de utilizar Modelos de Lenguaje Extensos (MLE) para asistir en psicoterapia profesional. Con este fin, proponemos un nuevo punto de referencia, CBT-BENCH, para la evaluación sistemática de la asistencia en terapia cognitivo-conductual (TCC). Incluimos tres niveles de tareas en CBT-BENCH: I: Adquisición de conocimientos básicos de TCC, con la tarea de preguntas de opción múltiple; II: Comprensión del modelo cognitivo, con las tareas de clasificación de distorsiones cognitivas, clasificación de creencias centrales primarias y clasificación de creencias centrales detalladas; III: Generación de respuestas terapéuticas, con la tarea de generar respuestas al discurso del paciente en sesiones de terapia de TCC. Estas tareas abarcan aspectos clave de la TCC que podrían ser mejorados potencialmente mediante la asistencia de IA, al mismo tiempo que delinean una jerarquía de requisitos de capacidad, que van desde la recitación de conocimientos básicos hasta participar en conversaciones terapéuticas reales. Evaluamos MLE representativos en nuestro punto de referencia. Los resultados experimentales indican que si bien los MLE tienen un buen desempeño en la recitación de conocimientos de TCC, fallan en escenarios del mundo real complejos que requieren un análisis profundo de las estructuras cognitivas de los pacientes y la generación de respuestas efectivas, lo que sugiere posibles trabajos futuros.
English
There is a significant gap between patient needs and available mental health
support today. In this paper, we aim to thoroughly examine the potential of
using Large Language Models (LLMs) to assist professional psychotherapy. To
this end, we propose a new benchmark, CBT-BENCH, for the systematic evaluation
of cognitive behavioral therapy (CBT) assistance. We include three levels of
tasks in CBT-BENCH: I: Basic CBT knowledge acquisition, with the task of
multiple-choice questions; II: Cognitive model understanding, with the tasks of
cognitive distortion classification, primary core belief classification, and
fine-grained core belief classification; III: Therapeutic response generation,
with the task of generating responses to patient speech in CBT therapy
sessions. These tasks encompass key aspects of CBT that could potentially be
enhanced through AI assistance, while also outlining a hierarchy of capability
requirements, ranging from basic knowledge recitation to engaging in real
therapeutic conversations. We evaluated representative LLMs on our benchmark.
Experimental results indicate that while LLMs perform well in reciting CBT
knowledge, they fall short in complex real-world scenarios requiring deep
analysis of patients' cognitive structures and generating effective responses,
suggesting potential future work.Summary
AI-Generated Summary