L'apprendimento delle preferenze sblocca le capacità di consulenza psicologica dei modelli linguistici di grandi dimensioni

Abstract

L'applicazione di modelli linguistici di grandi dimensioni (LLM) per assistere nella psicoconsulenza rappresenta un approccio emergente e significativo, motivato dal divario sostanziale tra i bisogni dei pazienti e la disponibilità di supporto per la salute mentale. Tuttavia, gli attuali LLM faticano a fornire risposte efficaci in modo coerente ai discorsi dei clienti, principalmente a causa della mancanza di supervisione da parte di dati reali di alta qualità derivanti da sessioni di psicoconsulenza, il cui contenuto è tipicamente inaccessibile per motivi di privacy dei clienti. Inoltre, la qualità delle risposte dei terapeuti nelle sessioni disponibili può variare significativamente in base alla loro formazione professionale e all'esperienza. Valutare la qualità delle risposte dei terapeuti rimane una sfida aperta. In questo lavoro, affrontiamo queste sfide proponendo innanzitutto un insieme di principi professionali e completi per valutare le risposte dei terapeuti ai discorsi dei clienti. Utilizzando questi principi, creiamo un dataset di preferenze, PsychoCounsel-Preference, che contiene 36k coppie di confronto di preferenze di alta qualità. Questo dataset è allineato con le preferenze di psicoterapeuti professionisti, fornendo una solida base per valutare e migliorare gli LLM nella psicoconsulenza. Esperimenti sul reward modeling e sull'apprendimento delle preferenze dimostrano che PsychoCounsel-Preference è un'ottima risorsa per gli LLM per acquisire le competenze essenziali per rispondere ai clienti in una sessione di consulenza. Il nostro modello meglio allineato, PsychoCounsel-Llama3-8B, raggiunge un impressionante tasso di vittoria dell'87% contro GPT-4o. Rilasciamo PsychoCounsel-Preference, PsychoCounsel-Llama3-8B e il modello di reward PsychoCounsel-Llama3-8B-Reward per facilitare la ricerca sulla psicoconsulenza con gli LLM all'indirizzo: https://hf.co/Psychotherapy-LLM.

English

Applying large language models (LLMs) to assist in psycho-counseling is an emerging and meaningful approach, driven by the significant gap between patient needs and the availability of mental health support. However, current LLMs struggle to consistently provide effective responses to client speeches, largely due to the lack of supervision from high-quality real psycho-counseling data, whose content is typically inaccessible due to client privacy concerns. Furthermore, the quality of therapists' responses in available sessions can vary significantly based on their professional training and experience. Assessing the quality of therapists' responses remains an open challenge. In this work, we address these challenges by first proposing a set of professional and comprehensive principles to evaluate therapists' responses to client speeches. Using these principles, we create a preference dataset, PsychoCounsel-Preference, which contains 36k high-quality preference comparison pairs. This dataset aligns with the preferences of professional psychotherapists, providing a robust foundation for evaluating and improving LLMs in psycho-counseling. Experiments on reward modeling and preference learning demonstrate that PsychoCounsel-Preference is an excellent resource for LLMs to acquire essential skills for responding to clients in a counseling session. Our best-aligned model, PsychoCounsel-Llama3-8B, achieves an impressive win rate of 87% against GPT-4o. We release PsychoCounsel-Preference, PsychoCounsel-Llama3-8B and the reward model PsychoCounsel Llama3-8B-Reward to facilitate the research of psycho-counseling with LLMs at: https://hf.co/Psychotherapy-LLM.

L'apprendimento delle preferenze sblocca le capacità di consulenza psicologica dei modelli linguistici di grandi dimensioni

Preference Learning Unlocks LLMs' Psycho-Counseling Skills

Abstract

Support