Voorkeursleren ontsluit de psycho-counselingvaardigheden van LLM's

Samenvatting

Het toepassen van grote taalmodellen (LLMs) om psychologische counseling te ondersteunen is een opkomende en betekenisvolle benadering, aangedreven door de aanzienlijke kloof tussen de behoeften van patiënten en de beschikbaarheid van mentale gezondheidsondersteuning. Huidige LLMs hebben echter moeite om consistent effectieve reacties te geven op uitspraken van cliënten, voornamelijk door het gebrek aan toezicht van hoogwaardige echte psychologische counselingsdata, waarvan de inhoud meestal ontoegankelijk is vanwege privacyoverwegingen van cliënten. Bovendien kan de kwaliteit van de reacties van therapeuten in beschikbare sessies aanzienlijk variëren, afhankelijk van hun professionele training en ervaring. Het beoordelen van de kwaliteit van de reacties van therapeuten blijft een open uitdaging. In dit werk pakken we deze uitdagingen aan door eerst een set professionele en uitgebreide principes voor te stellen om de reacties van therapeuten op uitspraken van cliënten te evalueren. Met behulp van deze principes creëren we een voorkeursdataset, PsychoCounsel-Preference, die 36k hoogwaardige voorkeursvergelijkingen bevat. Deze dataset sluit aan bij de voorkeuren van professionele psychotherapeuten en biedt een robuuste basis voor het evalueren en verbeteren van LLMs in psychologische counseling. Experimenten met beloningsmodellering en voorkeursleren tonen aan dat PsychoCounsel-Preference een uitstekende bron is voor LLMs om essentiële vaardigheden te verwerven voor het reageren op cliënten in een counselingsessie. Ons best afgestemde model, PsychoCounsel-Llama3-8B, behaalt een indrukwekkend winstpercentage van 87% tegen GPT-4o. We geven PsychoCounsel-Preference, PsychoCounsel-Llama3-8B en het beloningsmodel PsychoCounsel Llama3-8B-Reward vrij om onderzoek naar psychologische counseling met LLMs te faciliteren op: https://hf.co/Psychotherapy-LLM.

English

Applying large language models (LLMs) to assist in psycho-counseling is an emerging and meaningful approach, driven by the significant gap between patient needs and the availability of mental health support. However, current LLMs struggle to consistently provide effective responses to client speeches, largely due to the lack of supervision from high-quality real psycho-counseling data, whose content is typically inaccessible due to client privacy concerns. Furthermore, the quality of therapists' responses in available sessions can vary significantly based on their professional training and experience. Assessing the quality of therapists' responses remains an open challenge. In this work, we address these challenges by first proposing a set of professional and comprehensive principles to evaluate therapists' responses to client speeches. Using these principles, we create a preference dataset, PsychoCounsel-Preference, which contains 36k high-quality preference comparison pairs. This dataset aligns with the preferences of professional psychotherapists, providing a robust foundation for evaluating and improving LLMs in psycho-counseling. Experiments on reward modeling and preference learning demonstrate that PsychoCounsel-Preference is an excellent resource for LLMs to acquire essential skills for responding to clients in a counseling session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference, PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to facilitate the research of psycho-counseling with LLMs at: https://hf.co/Psychotherapy-LLM.

Voorkeursleren ontsluit de psycho-counselingvaardigheden van LLM's

Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Samenvatting

Support