L'apprentissage des préférences débloque les compétences en psycho-conseil des LLM.

Résumé

L'application des grands modèles de langage (LLMs) pour assister en psychothérapie est une approche émergente et significative, motivée par l'écart important entre les besoins des patients et la disponibilité du soutien en santé mentale. Cependant, les LLMs actuels peinent à fournir de manière constante des réponses efficaces aux discours des clients, principalement en raison du manque de supervision par des données réelles de haute qualité issues de séances de psychothérapie, dont le contenu est généralement inaccessible en raison des préoccupations liées à la confidentialité des clients. De plus, la qualité des réponses des thérapeutes dans les séances disponibles peut varier considérablement en fonction de leur formation professionnelle et de leur expérience. Évaluer la qualité des réponses des thérapeutes reste un défi ouvert. Dans ce travail, nous abordons ces défis en proposant d'abord un ensemble de principes professionnels et complets pour évaluer les réponses des thérapeutes aux discours des clients. En utilisant ces principes, nous créons un ensemble de données de préférences, PsychoCounsel-Preference, qui contient 36 000 paires de comparaison de préférences de haute qualité. Cet ensemble de données est aligné sur les préférences des psychothérapeutes professionnels, offrant une base solide pour évaluer et améliorer les LLMs en psychothérapie. Les expériences sur la modélisation de récompense et l'apprentissage par préférence démontrent que PsychoCounsel-Preference est une excellente ressource pour que les LLMs acquièrent les compétences essentielles pour répondre aux clients lors d'une séance de conseil. Notre modèle le mieux aligné, PsychoCounsel-Llama3-8B, atteint un taux de victoire impressionnant de 87 % contre GPT-4o. Nous publions PsychoCounsel-Preference, PsychoCounsel-Llama3-8B et le modèle de récompense PsychoCounsel Llama3-8B-Reward pour faciliter la recherche en psychothérapie avec les LLMs à l'adresse suivante : https://hf.co/Psychotherapy-LLM.

English

Applying large language models (LLMs) to assist in psycho-counseling is an emerging and meaningful approach, driven by the significant gap between patient needs and the availability of mental health support. However, current LLMs struggle to consistently provide effective responses to client speeches, largely due to the lack of supervision from high-quality real psycho-counseling data, whose content is typically inaccessible due to client privacy concerns. Furthermore, the quality of therapists' responses in available sessions can vary significantly based on their professional training and experience. Assessing the quality of therapists' responses remains an open challenge. In this work, we address these challenges by first proposing a set of professional and comprehensive principles to evaluate therapists' responses to client speeches. Using these principles, we create a preference dataset, PsychoCounsel-Preference, which contains 36k high-quality preference comparison pairs. This dataset aligns with the preferences of professional psychotherapists, providing a robust foundation for evaluating and improving LLMs in psycho-counseling. Experiments on reward modeling and preference learning demonstrate that PsychoCounsel-Preference is an excellent resource for LLMs to acquire essential skills for responding to clients in a counseling session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference, PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to facilitate the research of psycho-counseling with LLMs at: https://hf.co/Psychotherapy-LLM.

L'apprentissage des préférences débloque les compétences en psycho-conseil des LLM.

Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Résumé

Support