L'apprentissage des préférences débloque les compétences en psycho-conseil des LLM.
Preference Learning Unlocks LLMs' Psycho-Counseling Skills
February 27, 2025
Auteurs: Mian Zhang, Shaun M. Eack, Zhiyu Zoey Chen
cs.AI
Résumé
L'application des grands modèles de langage (LLMs) pour assister en psychothérapie est une approche émergente et significative, motivée par l'écart important entre les besoins des patients et la disponibilité du soutien en santé mentale. Cependant, les LLMs actuels peinent à fournir de manière constante des réponses efficaces aux discours des clients, principalement en raison du manque de supervision par des données réelles de haute qualité issues de séances de psychothérapie, dont le contenu est généralement inaccessible en raison des préoccupations liées à la confidentialité des clients. De plus, la qualité des réponses des thérapeutes dans les séances disponibles peut varier considérablement en fonction de leur formation professionnelle et de leur expérience. Évaluer la qualité des réponses des thérapeutes reste un défi ouvert. Dans ce travail, nous abordons ces défis en proposant d'abord un ensemble de principes professionnels et complets pour évaluer les réponses des thérapeutes aux discours des clients. En utilisant ces principes, nous créons un ensemble de données de préférences, PsychoCounsel-Preference, qui contient 36 000 paires de comparaison de préférences de haute qualité. Cet ensemble de données est aligné sur les préférences des psychothérapeutes professionnels, offrant une base solide pour évaluer et améliorer les LLMs en psychothérapie. Les expériences sur la modélisation de récompense et l'apprentissage par préférence démontrent que PsychoCounsel-Preference est une excellente ressource pour que les LLMs acquièrent les compétences essentielles pour répondre aux clients lors d'une séance de conseil. Notre modèle le mieux aligné, PsychoCounsel-Llama3-8B, atteint un taux de victoire impressionnant de 87 % contre GPT-4o. Nous publions PsychoCounsel-Preference, PsychoCounsel-Llama3-8B et le modèle de récompense PsychoCounsel Llama3-8B-Reward pour faciliter la recherche en psychothérapie avec les LLMs à l'adresse suivante : https://hf.co/Psychotherapy-LLM.
English
Applying large language models (LLMs) to assist in psycho-counseling is an
emerging and meaningful approach, driven by the significant gap between patient
needs and the availability of mental health support. However, current LLMs
struggle to consistently provide effective responses to client speeches,
largely due to the lack of supervision from high-quality real psycho-counseling
data, whose content is typically inaccessible due to client privacy concerns.
Furthermore, the quality of therapists' responses in available sessions can
vary significantly based on their professional training and experience.
Assessing the quality of therapists' responses remains an open challenge. In
this work, we address these challenges by first proposing a set of professional
and comprehensive principles to evaluate therapists' responses to client
speeches. Using these principles, we create a preference dataset,
PsychoCounsel-Preference, which contains 36k high-quality preference comparison
pairs. This dataset aligns with the preferences of professional
psychotherapists, providing a robust foundation for evaluating and improving
LLMs in psycho-counseling. Experiments on reward modeling and preference
learning demonstrate that PsychoCounsel-Preference is an excellent resource for
LLMs to acquire essential skills for responding to clients in a counseling
session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an
impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference,
PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to
facilitate the research of psycho-counseling with LLMs at:
https://hf.co/Psychotherapy-LLM.Summary
AI-Generated Summary