PsychoSafe : susciter des refus psychologiquement informés dans les modèles de langage de grande taille

Résumé

Les grands modèles de langage (LLM) sont régulièrement confrontés à des requêtes qui devraient être refusées, créant un compromis entre l'utilité et la prévention des préjudices. Cependant, les refus eux-mêmes peuvent être utiles. Dans les interactions à haut risque impliquant une crise, une contrainte ou une intention croissante, un non-respect abrupt peut éviter un préjudice direct tout en échouant à soutenir les besoins de la personne derrière la requête. Nous présentons PsychoSafe, un cadre de refus psychologiquement informé qui reconceptualise le refus comme une communication structurée et solidaire, ancrée dans des stratégies d'intervention fondées sur des preuves. Pour développer PsychoSafe, nous avons construit un corpus de 8019 paires requête-réponse couvrant cinq domaines de risque psychologiquement saillants et avons appliqué un paramétrage par instructions et un ajustement fin efficace en paramètres sur Qwen 3.5 27B. Sur un ensemble de validation équilibré de 500 requêtes, évalué via un juge LLM et validé par des notations humaines, le paramétrage par instructions de PsychoSafe améliore la qualité globale du refus de 28,1 % par rapport à une ligne de base générique, avec des gains particulièrement importants dans l'orientation vers des ressources externes (+46,8 %) et l'ancrage psychologique (+34,8 %), tout en préservant les performances en aval sur des tâches ne nécessitant pas de refus. L'ajustement fin atteint des taux de refus et d'orientation vers des ressources presque parfaits, mais réduit la pertinence des réponses. Des évaluations supplémentaires sur SORRY-Bench et XSTest montrent une robustesse intra-domaine élevée mais une généralisation inter-domaine limitée, ce qui suggère que les travaux futurs devraient diversifier les données d'ajustement fin pour aider les modèles à appliquer les interventions de manière sélective plutôt que schématique.

English

Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.