Seguridad Personalizada en LLMs: Un Punto de Referencia y un Enfoque Basado en Agentes de Planificación
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
Autores: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen generar respuestas idénticas o similares para todos los usuarios ante la misma indicación, lo que plantea serios riesgos de seguridad en aplicaciones de alto impacto donde las vulnerabilidades de los usuarios varían ampliamente. Las evaluaciones de seguridad existentes se basan principalmente en métricas independientes del contexto, como la factualidad, el sesgo o la toxicidad, pasando por alto el hecho de que la misma respuesta puede conllevar riesgos divergentes dependiendo del trasfondo o condición del usuario. Introducimos la seguridad personalizada para llenar este vacío y presentamos PENGUIN, un benchmark que comprende 14,000 escenarios en siete dominios sensibles, con variantes tanto ricas en contexto como libres de contexto. Al evaluar seis LLMs líderes, demostramos que la información personalizada del usuario mejora significativamente las puntuaciones de seguridad en un 43.2%, confirmando la efectividad de la personalización en la alineación de la seguridad. Sin embargo, no todos los atributos del contexto contribuyen por igual a la mejora de la seguridad. Para abordar esto, desarrollamos RAISE, un marco de agente de dos etapas sin entrenamiento que adquiere estratégicamente el trasfondo específico del usuario. RAISE mejora las puntuaciones de seguridad hasta en un 31.6% en comparación con seis LLMs básicos, manteniendo un bajo costo de interacción de solo 2.7 consultas de usuario en promedio. Nuestros hallazgos destacan la importancia de la recopilación selectiva de información en dominios críticos para la seguridad y ofrecen una solución práctica para personalizar las respuestas de los LLMs sin necesidad de reentrenar el modelo. Este trabajo establece una base para la investigación en seguridad que se adapta a los contextos individuales de los usuarios en lugar de asumir un estándar universal de daño.
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.Summary
AI-Generated Summary