PsychoSafe: Получение психологически обоснованных отказов в больших языковых моделях

Аннотация

Крупные языковые модели (LLM) регулярно сталкиваются с запросами, которые следует отклонять, что создает компромисс между полезностью и предотвращением вреда. Однако сами отказы могут быть полезными. Во взаимодействиях с высоким риском, включающих кризис, принуждение или эскалацию намерений, прямой отказ может предотвратить непосредственный вред, но при этом не удовлетворить потребности человека, стоящего за запросом. Мы представляем PsychoSafe — психологически обоснованную структуру отказа, которая переосмысливает отказ как структурированное поддерживающее общение, основанное на научно обоснованных стратегиях вмешательства. Для разработки PsychoSafe мы создали корпус из 8019 пар запрос-ответ, охватывающих пять психологически значимых областей риска, и применили промптинг и эффективную по параметрам тонкую настройку к модели Qwen 3.5 27B. На сбалансированном валидационном наборе из 500 запросов, оцененном с помощью LLM-судьи и подтвержденном человеческими оценками, промптинг PsychoSafe улучшает общее качество отказа на 28,1% по сравнению с общим базовым уровнем, с особенно сильным улучшением в направлении к внешним ресурсам (+46,8%) и психологическом обосновании (+34,8%), сохраняя при этом производительность на задачах, не связанных с отказом. Тонкая настройка достигает почти идеальных показателей отказа и направления к ресурсам, но снижает релевантность ответов. Дополнительные оценки на SORRY-Bench и XSTest показывают высокую устойчивость в рамках домена, но ограниченную обобщаемость за его пределами, что предполагает необходимость диверсификации данных для тонкой настройки в будущих работах, чтобы помочь моделям применять вмешательства избирательно, а не схематично.

English

Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.