PsychoSafe: Hervorrufen psychologisch informierter Ablehnungen in großen Sprachmodellen
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
June 8, 2026
Autoren: Gianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) sehen sich routinemäßig Anfragen gegenüber, die abgelehnt werden sollten, was einen Zielkonflikt zwischen Hilfsbereitschaft und Schadensverhütung schafft. Allerdings können Ablehnungen selbst hilfreich sein. In risikoreichen Interaktionen, die Krise, Zwang oder eskalierende Absicht beinhalten, kann eine direkte Verweigerung zwar direkten Schaden verhindern, aber dennoch die Bedürfnisse der Person hinter der Anfrage unberücksichtigt lassen. Wir stellen PsychoSafe vor, ein psychologisch fundiertes Ablehnungsframework, das Ablehnung als strukturierte unterstützende Kommunikation auf der Grundlage evidenzbasierter Interventionsstrategien neu definiert. Zur Entwicklung von PsychoSafe konstruieren wir ein Korpus von 8019 Prompt-Antwort-Paaren, das fünf psychologisch relevante Risikobereiche abdeckt, und wenden Prompting und parameter-effizientes Feintuning auf Qwen 3.5 27B an. Bei einem ausgewogenen Validierungssatz von 500 Prompts, bewertet mit einem LLM-Richter und durch menschliche Bewertungen validiert, verbessert PsychoSafe-Prompting die allgemeine Ablehnungsqualität um 28,1 % gegenüber einer generischen Baseline, mit besonders starken Zuwächsen bei der Weiterleitung an externe Ressourcen (+46,8 %) und der psychologischen Fundierung (+34,8 %), während die Leistung bei nachgelagerten Aufgaben ohne Ablehnungscharakter erhalten bleibt. Das Feintuning erzielt nahezu perfekte Ablehnungs- und Ressourcenverweisraten, verringert jedoch die Relevanz der Antworten. Zusätzliche Evaluierungen auf SORRY-Bench und XSTest zeigen eine starke Robustheit innerhalb des Bereichs, aber eine begrenzte Generalisierung außerhalb des Bereichs, was darauf hindeutet, dass zukünftige Arbeiten die Feintuning-Daten diversifizieren sollten, um Modellen zu helfen, Interventionen selektiv und nicht schematisch anzuwenden.
English
Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.