선호 학습이 LLM의 심리 상담 능력을 해제하다
Preference Learning Unlocks LLMs' Psycho-Counseling Skills
February 27, 2025
저자: Mian Zhang, Shaun M. Eack, Zhiyu Zoey Chen
cs.AI
초록
대형 언어 모델(LLM)을 심리 상담 보조에 적용하는 것은 환자 요구와 정신 건강 지원 간의 상당한 격차로 인해 등장한 유의미한 접근법입니다. 그러나 현재의 LLM은 내담자의 발화에 대해 일관되게 효과적인 응답을 제공하는 데 어려움을 겪고 있으며, 이는 주로 내담자 프라이버시 문제로 인해 접근하기 어려운 고품질 실제 심리 상담 데이터의 부재 때문입니다. 또한, 이용 가능한 상담 세션에서 치료사의 응답 품질은 그들의 전문 교육과 경험에 따라 크게 달라질 수 있습니다. 치료사의 응답 품질을 평가하는 것은 여전히 해결되지 않은 과제입니다. 본 연구에서는 이러한 과제를 해결하기 위해 먼저 내담자 발화에 대한 치료사의 응답을 평가하기 위한 전문적이고 포괄적인 원칙 세트를 제안합니다. 이러한 원칙을 사용하여 전문 심리치료사의 선호도와 일치하는 36,000개의 고품질 선호도 비교 쌍을 포함한 선호도 데이터셋, PsychoCounsel-Preference를 구축했습니다. 이 데이터셋은 LLM의 심리 상담 능력을 평가하고 개선하기 위한 견고한 기반을 제공합니다. 보상 모델링과 선호도 학습 실험을 통해 PsychoCounsel-Preference가 LLM이 상담 세션에서 내담자에게 응답하는 데 필요한 필수적인 기술을 습득하는 데 탁월한 자원임을 입증했습니다. 우리의 최적화된 모델인 PsychoCounsel-Llama3-8B는 GPT-4o 대비 87%의 인상적인 승률을 달성했습니다. LLM을 활용한 심리 상담 연구를 촉진하기 위해 PsychoCounsel-Preference, PsychoCounsel-Llama3-8B 및 보상 모델 PsychoCounsel-Llama3-8B-Reward를 https://hf.co/Psychotherapy-LLM에서 공개합니다.
English
Applying large language models (LLMs) to assist in psycho-counseling is an
emerging and meaningful approach, driven by the significant gap between patient
needs and the availability of mental health support. However, current LLMs
struggle to consistently provide effective responses to client speeches,
largely due to the lack of supervision from high-quality real psycho-counseling
data, whose content is typically inaccessible due to client privacy concerns.
Furthermore, the quality of therapists' responses in available sessions can
vary significantly based on their professional training and experience.
Assessing the quality of therapists' responses remains an open challenge. In
this work, we address these challenges by first proposing a set of professional
and comprehensive principles to evaluate therapists' responses to client
speeches. Using these principles, we create a preference dataset,
PsychoCounsel-Preference, which contains 36k high-quality preference comparison
pairs. This dataset aligns with the preferences of professional
psychotherapists, providing a robust foundation for evaluating and improving
LLMs in psycho-counseling. Experiments on reward modeling and preference
learning demonstrate that PsychoCounsel-Preference is an excellent resource for
LLMs to acquire essential skills for responding to clients in a counseling
session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an
impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference,
PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to
facilitate the research of psycho-counseling with LLMs at:
https://hf.co/Psychotherapy-LLM.Summary
AI-Generated Summary