O Aprendizado de Preferências Desbloqueia as Habilidades de Aconselhamento Psicológico dos LLMs

Resumo

A aplicação de modelos de linguagem de grande escala (LLMs) para auxiliar na psicoconsulta é uma abordagem emergente e significativa, impulsionada pela lacuna significativa entre as necessidades dos pacientes e a disponibilidade de suporte em saúde mental. No entanto, os LLMs atuais enfrentam dificuldades para fornecer respostas consistentemente eficazes aos discursos dos clientes, principalmente devido à falta de supervisão de dados reais de alta qualidade em psicoconsulta, cujo conteúdo geralmente é inacessível devido a preocupações com a privacidade dos clientes. Além disso, a qualidade das respostas dos terapeutas nas sessões disponíveis pode variar significativamente com base em sua formação profissional e experiência. Avaliar a qualidade das respostas dos terapeutas continua sendo um desafio em aberto. Neste trabalho, abordamos esses desafios propondo primeiro um conjunto de princípios profissionais e abrangentes para avaliar as respostas dos terapeutas aos discursos dos clientes. Utilizando esses princípios, criamos um conjunto de dados de preferências, o PsychoCounsel-Preference, que contém 36 mil pares de comparação de preferências de alta qualidade. Esse conjunto de dados está alinhado com as preferências de psicoterapeutas profissionais, fornecendo uma base robusta para avaliar e melhorar os LLMs em psicoconsulta. Experimentos em modelagem de recompensa e aprendizado de preferências demonstram que o PsychoCounsel-Preference é um recurso excelente para que os LLMs adquiram habilidades essenciais para responder aos clientes em uma sessão de consulta. Nosso modelo melhor alinhado, o PsychoCounsel-Llama3-8B, alcança uma taxa de vitória impressionante de 87% contra o GPT-4o. Disponibilizamos o PsychoCounsel-Preference, o PsychoCounsel-Llama3-8B e o modelo de recompensa PsychoCounsel-Llama3-8B-Reward para facilitar a pesquisa em psicoconsulta com LLMs em: https://hf.co/Psychotherapy-LLM.

English

Applying large language models (LLMs) to assist in psycho-counseling is an emerging and meaningful approach, driven by the significant gap between patient needs and the availability of mental health support. However, current LLMs struggle to consistently provide effective responses to client speeches, largely due to the lack of supervision from high-quality real psycho-counseling data, whose content is typically inaccessible due to client privacy concerns. Furthermore, the quality of therapists' responses in available sessions can vary significantly based on their professional training and experience. Assessing the quality of therapists' responses remains an open challenge. In this work, we address these challenges by first proposing a set of professional and comprehensive principles to evaluate therapists' responses to client speeches. Using these principles, we create a preference dataset, PsychoCounsel-Preference, which contains 36k high-quality preference comparison pairs. This dataset aligns with the preferences of professional psychotherapists, providing a robust foundation for evaluating and improving LLMs in psycho-counseling. Experiments on reward modeling and preference learning demonstrate that PsychoCounsel-Preference is an excellent resource for LLMs to acquire essential skills for responding to clients in a counseling session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference, PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to facilitate the research of psycho-counseling with LLMs at: https://hf.co/Psychotherapy-LLM.

O Aprendizado de Preferências Desbloqueia as Habilidades de Aconselhamento Psicológico dos LLMs

Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Resumo

Support