Segurança Personalizada em LLMs: Uma Abordagem de Benchmark e Agente Baseado em Planejamento
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
Autores: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) normalmente geram respostas idênticas ou semelhantes para todos os usuários diante do mesmo prompt, o que representa sérios riscos de segurança em aplicações de alto impacto, onde as vulnerabilidades dos usuários variam amplamente. As avaliações de segurança existentes dependem principalmente de métricas independentes de contexto - como factualidade, viés ou toxicidade - ignorando o fato de que a mesma resposta pode apresentar riscos divergentes dependendo do histórico ou condição do usuário. Introduzimos o conceito de segurança personalizada para preencher essa lacuna e apresentamos o PENGUIN - um benchmark composto por 14.000 cenários em sete domínios sensíveis, com variantes ricas em contexto e livres de contexto. Ao avaliar seis LLMs líderes, demonstramos que informações personalizadas do usuário melhoram significativamente as pontuações de segurança em 43,2%, confirmando a eficácia da personalização no alinhamento de segurança. No entanto, nem todos os atributos de contexto contribuem igualmente para a melhoria da segurança. Para abordar isso, desenvolvemos o RAISE - uma estrutura de agente em duas etapas, sem necessidade de treinamento, que adquire estrategicamente o histórico específico do usuário. O RAISE melhora as pontuações de segurança em até 31,6% em relação a seis LLMs padrão, mantendo um baixo custo de interação de apenas 2,7 consultas do usuário em média. Nossas descobertas destacam a importância da coleta seletiva de informações em domínios críticos para a segurança e oferecem uma solução prática para personalizar as respostas dos LLMs sem a necessidade de retreinamento do modelo. Este trabalho estabelece uma base para pesquisas de segurança que se adaptam aos contextos individuais dos usuários, em vez de assumir um padrão universal de dano.
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.