PsychoSafe: 대규모 언어 모델에서 심리학적 기반 거절 응답 유도
PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models
June 8, 2026
저자: Gianluca Barmina, Federico Torrielli, Sven Harms, Jacob Nielsen, Felix Mächtle, Stine Lyngsø Beltoft, Peter Schneider-Kamp, Thomas Eisenbarth, Lukas Galke Poech, Anne Lauscher
cs.AI
초록
대규모 언어 모델(LLM)은 일상적으로 거부되어야 할 요청에 직면하며, 이는 도움 제공과 피해 방지 사이의 상충 관계를 만든다. 그러나 거부 자체가 도움이 될 수 있다. 위기, 강압, 또는 고조되는 의도가 개입된 고위험 상호작용에서, 단호한 비협조는 직접적인 피해를 막을 수 있지만, 여전히 요청 뒤에 있는 개인의 필요를 지원하지는 못한다. 우리는 심리학에 기반한 거부 프레임워크인 PsychoSafe를 제시한다. 이는 거부를 증거 기반 개입 전략에 근거한 구조화된 지지적 소통으로 재정의한다. PsychoSafe를 개발하기 위해, 우리는 심리적으로 중요한 다섯 가지 위험 영역에 걸친 8019개의 프롬프트-응답 쌍으로 구성된 코퍼스를 구축하고, Qwen 3.5 27B에 프롬프팅과 파라미터 효율적 미세 조정을 적용했다. 500개의 프롬프트로 구성된 균형 검증 세트에서, LLM 판정기를 사용하고 인간 평가를 통해 검증한 결과, PsychoSafe 프롬프팅은 일반 기준선 대비 전반적인 거부 품질을 28.1% 향상시켰으며, 특히 외부 자원 연계(+46.8%)와 심리적 근거(+34.8%)에서 큰 성과를 보였고, 거부 외 작업의 하위 성능은 유지했다. 미세 조정은 거의 완벽한 거부 및 자원 연계 비율을 달성했지만, 응답 관련성을 감소시켰다. SORRY-Bench와 XSTest에 대한 추가 평가는 강력한 도메인 내 견고성을 보여주었지만 제한된 도메인 외 일반화를 나타내어, 향후 연구에서는 미세 조정 데이터를 다양화하여 모델이 도식적으로가 아니라 선택적으로 개입을 적용하도록 도와야 함을 시사한다.
English
Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.