O Aprendizado de Preferências Desbloqueia as Habilidades de Aconselhamento Psicológico dos LLMs
Preference Learning Unlocks LLMs' Psycho-Counseling Skills
February 27, 2025
Autores: Mian Zhang, Shaun M. Eack, Zhiyu Zoey Chen
cs.AI
Resumo
A aplicação de modelos de linguagem de grande escala (LLMs) para auxiliar na psicoconsulta é uma abordagem emergente e significativa, impulsionada pela lacuna significativa entre as necessidades dos pacientes e a disponibilidade de suporte em saúde mental. No entanto, os LLMs atuais enfrentam dificuldades para fornecer respostas consistentemente eficazes aos discursos dos clientes, principalmente devido à falta de supervisão de dados reais de alta qualidade em psicoconsulta, cujo conteúdo geralmente é inacessível devido a preocupações com a privacidade dos clientes. Além disso, a qualidade das respostas dos terapeutas nas sessões disponíveis pode variar significativamente com base em sua formação profissional e experiência. Avaliar a qualidade das respostas dos terapeutas continua sendo um desafio em aberto. Neste trabalho, abordamos esses desafios propondo primeiro um conjunto de princípios profissionais e abrangentes para avaliar as respostas dos terapeutas aos discursos dos clientes. Utilizando esses princípios, criamos um conjunto de dados de preferências, o PsychoCounsel-Preference, que contém 36 mil pares de comparação de preferências de alta qualidade. Esse conjunto de dados está alinhado com as preferências de psicoterapeutas profissionais, fornecendo uma base robusta para avaliar e melhorar os LLMs em psicoconsulta. Experimentos em modelagem de recompensa e aprendizado de preferências demonstram que o PsychoCounsel-Preference é um recurso excelente para que os LLMs adquiram habilidades essenciais para responder aos clientes em uma sessão de consulta. Nosso modelo melhor alinhado, o PsychoCounsel-Llama3-8B, alcança uma taxa de vitória impressionante de 87% contra o GPT-4o. Disponibilizamos o PsychoCounsel-Preference, o PsychoCounsel-Llama3-8B e o modelo de recompensa PsychoCounsel-Llama3-8B-Reward para facilitar a pesquisa em psicoconsulta com LLMs em: https://hf.co/Psychotherapy-LLM.
English
Applying large language models (LLMs) to assist in psycho-counseling is an
emerging and meaningful approach, driven by the significant gap between patient
needs and the availability of mental health support. However, current LLMs
struggle to consistently provide effective responses to client speeches,
largely due to the lack of supervision from high-quality real psycho-counseling
data, whose content is typically inaccessible due to client privacy concerns.
Furthermore, the quality of therapists' responses in available sessions can
vary significantly based on their professional training and experience.
Assessing the quality of therapists' responses remains an open challenge. In
this work, we address these challenges by first proposing a set of professional
and comprehensive principles to evaluate therapists' responses to client
speeches. Using these principles, we create a preference dataset,
PsychoCounsel-Preference, which contains 36k high-quality preference comparison
pairs. This dataset aligns with the preferences of professional
psychotherapists, providing a robust foundation for evaluating and improving
LLMs in psycho-counseling. Experiments on reward modeling and preference
learning demonstrate that PsychoCounsel-Preference is an excellent resource for
LLMs to acquire essential skills for responding to clients in a counseling
session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an
impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference,
PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to
facilitate the research of psycho-counseling with LLMs at:
https://hf.co/Psychotherapy-LLM.Summary
AI-Generated Summary