Präferenzlernen erschließt die psychologische Beratungsfähigkeiten von LLMs

Zusammenfassung

Die Anwendung großer Sprachmodelle (LLMs) zur Unterstützung in der psychologischen Beratung ist ein aufstrebender und bedeutungsvoller Ansatz, der durch die erhebliche Lücke zwischen den Bedürfnissen der Patienten und der Verfügbarkeit von psychologischer Unterstützung vorangetrieben wird. Allerdings haben aktuelle LLMs Schwierigkeiten, konsistente und effektive Antworten auf die Äußerungen von Klienten zu liefern, was größtenteils auf den Mangel an qualitativ hochwertigen, realen psychologischen Beratungsdaten zurückzuführen ist, deren Inhalte aufgrund von Datenschutzbedenken der Klienten typischerweise nicht zugänglich sind. Darüber hinaus kann die Qualität der Antworten von Therapeuten in verfügbaren Sitzungen erheblich variieren, abhängig von ihrer professionellen Ausbildung und Erfahrung. Die Bewertung der Qualität der Antworten von Therapeuten bleibt eine offene Herausforderung. In dieser Arbeit gehen wir diese Herausforderungen an, indem wir zunächst einen Satz professioneller und umfassender Prinzipien zur Bewertung der Antworten von Therapeuten auf die Äußerungen von Klienten vorschlagen. Mit diesen Prinzipien erstellen wir einen Präferenzdatensatz, PsychoCounsel-Preference, der 36.000 hochwertige Präferenzvergleichspaare enthält. Dieser Datensatz stimmt mit den Präferenzen professioneller Psychotherapeuten überein und bietet eine robuste Grundlage für die Bewertung und Verbesserung von LLMs in der psychologischen Beratung. Experimente zur Belohnungsmodellierung und Präferenzlernens zeigen, dass PsychoCounsel-Preference eine hervorragende Ressource für LLMs ist, um wesentliche Fähigkeiten für die Reaktion auf Klienten in einer Beratungssitzung zu erwerben. Unser bestangepasstes Modell, PsychoCounsel-Llama3-8B, erreicht eine beeindruckende Gewinnrate von 87 % gegenüber GPT-4o. Wir veröffentlichen PsychoCounsel-Preference, PsychoCounsel-Llama3-8B und das Belohnungsmodell PsychoCounsel Llama3-8B-Reward, um die Forschung zur psychologischen Beratung mit LLMs zu fördern, unter: https://hf.co/Psychotherapy-LLM.

English

Applying large language models (LLMs) to assist in psycho-counseling is an emerging and meaningful approach, driven by the significant gap between patient needs and the availability of mental health support. However, current LLMs struggle to consistently provide effective responses to client speeches, largely due to the lack of supervision from high-quality real psycho-counseling data, whose content is typically inaccessible due to client privacy concerns. Furthermore, the quality of therapists' responses in available sessions can vary significantly based on their professional training and experience. Assessing the quality of therapists' responses remains an open challenge. In this work, we address these challenges by first proposing a set of professional and comprehensive principles to evaluate therapists' responses to client speeches. Using these principles, we create a preference dataset, PsychoCounsel-Preference, which contains 36k high-quality preference comparison pairs. This dataset aligns with the preferences of professional psychotherapists, providing a robust foundation for evaluating and improving LLMs in psycho-counseling. Experiments on reward modeling and preference learning demonstrate that PsychoCounsel-Preference is an excellent resource for LLMs to acquire essential skills for responding to clients in a counseling session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference, PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to facilitate the research of psycho-counseling with LLMs at: https://hf.co/Psychotherapy-LLM.

Präferenzlernen erschließt die psychologische Beratungsfähigkeiten von LLMs

Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Zusammenfassung

Support