El Aprendizaje de Preferencias Desbloquea las Habilidades de Asesoramiento Psicológico en los LLM
Preference Learning Unlocks LLMs' Psycho-Counseling Skills
February 27, 2025
Autores: Mian Zhang, Shaun M. Eack, Zhiyu Zoey Chen
cs.AI
Resumen
La aplicación de modelos de lenguaje de gran escala (LLMs) para asistir en la psicoterapia es un enfoque emergente y significativo, impulsado por la brecha significativa entre las necesidades de los pacientes y la disponibilidad de apoyo en salud mental. Sin embargo, los LLMs actuales tienen dificultades para proporcionar respuestas efectivas de manera consistente a los discursos de los clientes, principalmente debido a la falta de supervisión basada en datos reales de alta calidad de psicoterapia, cuyo contenido suele ser inaccesible debido a preocupaciones sobre la privacidad de los clientes. Además, la calidad de las respuestas de los terapeutas en las sesiones disponibles puede variar significativamente según su formación profesional y experiencia. Evaluar la calidad de las respuestas de los terapeutas sigue siendo un desafío abierto. En este trabajo, abordamos estos desafíos proponiendo primero un conjunto de principios profesionales y completos para evaluar las respuestas de los terapeutas a los discursos de los clientes. Utilizando estos principios, creamos un conjunto de datos de preferencias, PsychoCounsel-Preference, que contiene 36k pares de comparación de preferencias de alta calidad. Este conjunto de datos se alinea con las preferencias de psicoterapeutas profesionales, proporcionando una base sólida para evaluar y mejorar los LLMs en psicoterapia. Los experimentos en modelado de recompensas y aprendizaje de preferencias demuestran que PsychoCounsel-Preference es un recurso excelente para que los LLMs adquieran habilidades esenciales para responder a los clientes en una sesión de terapia. Nuestro modelo mejor alineado, PsychoCounsel-Llama3-8B, alcanza una tasa de victoria impresionante del 87% frente a GPT-4o. Publicamos PsychoCounsel-Preference, PsychoCounsel-Llama3-8B y el modelo de recompensa PsychoCounsel Llama3-8B-Reward para facilitar la investigación de la psicoterapia con LLMs en: https://hf.co/Psychotherapy-LLM.
English
Applying large language models (LLMs) to assist in psycho-counseling is an
emerging and meaningful approach, driven by the significant gap between patient
needs and the availability of mental health support. However, current LLMs
struggle to consistently provide effective responses to client speeches,
largely due to the lack of supervision from high-quality real psycho-counseling
data, whose content is typically inaccessible due to client privacy concerns.
Furthermore, the quality of therapists' responses in available sessions can
vary significantly based on their professional training and experience.
Assessing the quality of therapists' responses remains an open challenge. In
this work, we address these challenges by first proposing a set of professional
and comprehensive principles to evaluate therapists' responses to client
speeches. Using these principles, we create a preference dataset,
PsychoCounsel-Preference, which contains 36k high-quality preference comparison
pairs. This dataset aligns with the preferences of professional
psychotherapists, providing a robust foundation for evaluating and improving
LLMs in psycho-counseling. Experiments on reward modeling and preference
learning demonstrate that PsychoCounsel-Preference is an excellent resource for
LLMs to acquire essential skills for responding to clients in a counseling
session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an
impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference,
PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to
facilitate the research of psycho-counseling with LLMs at:
https://hf.co/Psychotherapy-LLM.Summary
AI-Generated Summary