PsychoSafe: Het ontlokken van psychologisch geïnformeerde weigeringen in grote taalmodellen
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
June 8, 2026
Auteurs: Gianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden routinematig geconfronteerd met verzoeken die geweigerd moeten worden, wat een afweging creëert tussen behulpzaamheid en schadepreventie. Weigeringen op zich kunnen echter behulpzaam zijn. In hoogrisico-interacties met betrekking tot crisis, dwang of escalerende intenties kan een directe niet-naleving directe schade voorkomen, maar schiet het nog steeds tekort in het ondersteunen van de behoeften van de persoon achter het verzoek. We presenteren PsychoSafe, een psychologisch geïnformeerd weigeringskader dat weigering herdefinieert als gestructureerde ondersteunende communicatie, gebaseerd op evidence-based interventiestrategieën. Om PsychoSafe te ontwikkelen, construeren we een corpus van 8019 prompt-responsparen die vijf psychologisch relevante risicodomeinen bestrijken en passen we prompting en parameter-efficiënte fine-tuning toe op Qwen 3.5 27B. Op een gebalanceerde validatieset van 500 prompts, geëvalueerd met een LLM-beoordelaar en gevalideerd door menselijke beoordelingen, verbetert PsychoSafe-prompting de algehele weigeringskwaliteit met 28,1% ten opzichte van een generieke baseline, met bijzonder sterke winst in verwijzing naar externe bronnen (+46,8%) en psychologische onderbouwing (+34,8%), terwijl de downstreamprestatie op niet-weigeringstaken behouden blijft. Fine-tuning bereikt bijna perfecte weigerings- en bronverwijzingspercentages, maar vermindert de relevantie van de respons. Aanvullende evaluaties op SORRY-Bench en XSTest tonen een sterke domeininterne robuustheid maar beperkte buitendomein generalisatie, wat suggereert dat toekomstig werk de fine-tuningdata moet diversifiëren om modellen te helpen interventies selectief in plaats van schematisch toe te passen.
English
Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.