PsychoSafe: Suscitando rechazos psicológicamente informados en modelos de lenguaje de gran escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan con frecuencia solicitudes que deberían ser rechazadas, lo que genera un equilibrio entre utilidad y prevención de daños. Sin embargo, los propios rechazos pueden resultar útiles. En interacciones de alto riesgo que involucran crisis, coerción o intenciones en escalada, un incumplimiento abrupto puede prevenir daños inmediatos, pero aun así no logra apoyar las necesidades de la persona detrás de la solicitud. Presentamos PsychoSafe, un marco de rechazo fundamentado psicológicamente que reformula el rechazo como una comunicación de apoyo estructurada, basada en estrategias de intervención respaldadas por evidencia. Para desarrollar PsychoSafe, construimos un corpus de 8019 pares de instrucción y respuesta que abarcan cinco dominios de riesgo psicológicamente relevantes, y aplicamos ajuste fino mediante indicaciones y ajuste fino eficiente en parámetros a Qwen 3.5 27B. En un conjunto de validación equilibrado de 500 indicaciones, evaluado con un evaluador LLM y validado mediante calificaciones humanas, el uso de indicaciones con PsychoSafe mejora la calidad general del rechazo en un 28.1% en comparación con una línea base genérica, con ganancias particularmente sólidas en la derivación a recursos externos (+46.8%) y la fundamentación psicológica (+34.8%), al tiempo que preserva el rendimiento posterior en tareas que no implican rechazo. El ajuste fino logra tasas casi perfectas de rechazo y derivación a recursos, pero reduce la relevancia de las respuestas. Evaluaciones adicionales en SORRY-Bench y XSTest muestran una sólida robustez dentro del dominio, pero una generalización limitada fuera del dominio, lo que sugiere que el trabajo futuro debería diversificar los datos de ajuste fino para ayudar a los modelos a aplicar las intervenciones de manera selectiva en lugar de esquemática.

English

Large language models (LLMs) routinely face requests that should be refused, creating a trade-off between helpfulness and harm prevention. However, refusals themselves can be helpful. In high-risk interactions involving crisis, coercion, or escalating intent, blunt non-compliance may prevent direct harm while still failing to support the needs of the person behind the request. We present PsychoSafe, a psychologically-informed refusal framework that reframes refusal as structured supportive communication grounded in evidence-based intervention strategies. To develop PsychoSafe, we construct a corpus of 8019 prompt-response pairs spanning five psychologically salient risk domains and apply prompting and parameter-efficient fine-tuning to Qwen 3.5 27B. On a balanced validation set of 500 prompts, evaluated with an LLM judge and validated through human ratings, PsychoSafe prompting improves overall refusal quality by 28.1% over a generic baseline, with particularly strong gains in external resource referral (+46.8%) and psychological grounding (+34.8%), while preserving downstream performance on non-refusal tasks. Fine-tuning achieves near-perfect refusal and resource-referral rates but reduces response relevance. Additional evaluations on SORRY-Bench and XSTest show strong in-domain robustness but limited out-of-domain generalization, suggesting that future work should diversify fine-tuning data to help models apply interventions selectively rather than schematically.