PsychoSafe: Obtendo Recusas Psicologicamente Fundamentadas em Grandes Modelos de Linguagem

Resumo

Modelos de linguagem de grande porte (LLMs) rotineiramente enfrentam solicitações que devem ser recusadas, criando um compromisso entre utilidade e prevenção de danos. No entanto, as próprias recusas podem ser úteis. Em interações de alto risco envolvendo crise, coerção ou intenção crescente, a não conformidade direta pode prevenir danos imediatos, mas ainda assim falha em apoiar as necessidades da pessoa por trás da solicitação. Apresentamos o PsychoSafe, uma estrutura de recusa informada psicologicamente que reformula a recusa como comunicação estruturada de apoio, fundamentada em estratégias de intervenção baseadas em evidências. Para desenvolver o PsychoSafe, construímos um corpus de 8019 pares prompt-resposta abrangendo cinco domínios de risco psicologicamente salientes e aplicamos ajuste de prompts e fine-tuning eficiente em parâmetros ao Qwen 3.5 27B. Em um conjunto de validação balanceado de 500 prompts, avaliado com um juiz LLM e validado por avaliações humanas, o ajuste de prompts do PsychoSafe melhora a qualidade geral da recusa em 28,1% em relação a uma linha de base genérica, com ganhos particularmente fortes em encaminhamento para recursos externos (+46,8%) e fundamentação psicológica (+34,8%), preservando o desempenho downstream em tarefas sem recusa. O fine-tuning alcança taxas quase perfeitas de recusa e encaminhamento de recursos, mas reduz a relevância da resposta. Avaliações adicionais no SORRY-Bench e XSTest mostram forte robustez no domínio, mas generalização limitada fora do domínio, sugerindo que trabalhos futuros devem diversificar os dados de fine-tuning para ajudar os modelos a aplicar intervenções de forma seletiva, em vez de esquemática.

English

Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.