CBT-Bench: Evaluación de Modelos de Lenguaje Grandes en la Asistencia de la Terapia Cognitivo-Conductual

Resumen

Existe una brecha significativa entre las necesidades de los pacientes y el apoyo disponible en salud mental en la actualidad. En este documento, nuestro objetivo es examinar a fondo el potencial de utilizar Modelos de Lenguaje Extensos (MLE) para asistir en psicoterapia profesional. Con este fin, proponemos un nuevo punto de referencia, CBT-BENCH, para la evaluación sistemática de la asistencia en terapia cognitivo-conductual (TCC). Incluimos tres niveles de tareas en CBT-BENCH: I: Adquisición de conocimientos básicos de TCC, con la tarea de preguntas de opción múltiple; II: Comprensión del modelo cognitivo, con las tareas de clasificación de distorsiones cognitivas, clasificación de creencias centrales primarias y clasificación de creencias centrales detalladas; III: Generación de respuestas terapéuticas, con la tarea de generar respuestas al discurso del paciente en sesiones de terapia de TCC. Estas tareas abarcan aspectos clave de la TCC que podrían ser mejorados potencialmente mediante la asistencia de IA, al mismo tiempo que delinean una jerarquía de requisitos de capacidad, que van desde la recitación de conocimientos básicos hasta participar en conversaciones terapéuticas reales. Evaluamos MLE representativos en nuestro punto de referencia. Los resultados experimentales indican que si bien los MLE tienen un buen desempeño en la recitación de conocimientos de TCC, fallan en escenarios del mundo real complejos que requieren un análisis profundo de las estructuras cognitivas de los pacientes y la generación de respuestas efectivas, lo que sugiere posibles trabajos futuros.

English

There is a significant gap between patient needs and available mental health support today. In this paper, we aim to thoroughly examine the potential of using Large Language Models (LLMs) to assist professional psychotherapy. To this end, we propose a new benchmark, CBT-BENCH, for the systematic evaluation of cognitive behavioral therapy (CBT) assistance. We include three levels of tasks in CBT-BENCH: I: Basic CBT knowledge acquisition, with the task of multiple-choice questions; II: Cognitive model understanding, with the tasks of cognitive distortion classification, primary core belief classification, and fine-grained core belief classification; III: Therapeutic response generation, with the task of generating responses to patient speech in CBT therapy sessions. These tasks encompass key aspects of CBT that could potentially be enhanced through AI assistance, while also outlining a hierarchy of capability requirements, ranging from basic knowledge recitation to engaging in real therapeutic conversations. We evaluated representative LLMs on our benchmark. Experimental results indicate that while LLMs perform well in reciting CBT knowledge, they fall short in complex real-world scenarios requiring deep analysis of patients' cognitive structures and generating effective responses, suggesting potential future work.

CBT-Bench: Evaluación de Modelos de Lenguaje Grandes en la Asistencia de la Terapia Cognitivo-Conductual

CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy

Resumen

Support