Sécurité personnalisée dans les LLM : Un benchmark et une approche basée sur un agent planificateur
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
Auteurs: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
Résumé
Les grands modèles de langage (LLM) génèrent généralement des réponses identiques ou similaires pour tous les utilisateurs face à la même instruction, ce qui pose des risques de sécurité importants dans des applications critiques où les vulnérabilités des utilisateurs varient considérablement. Les évaluations de sécurité existantes reposent principalement sur des mesures indépendantes du contexte - telles que la factualité, les biais ou la toxicité - négligeant le fait qu'une même réponse peut présenter des risques divergents selon le profil ou la situation de l'utilisateur. Nous introduisons le concept de sécurité personnalisée pour combler cette lacune et présentons PENGUIN - un benchmark comprenant 14 000 scénarios couvrant sept domaines sensibles, avec des variantes riches en contexte et sans contexte. En évaluant six LLM leaders, nous démontrons que les informations personnalisées sur l'utilisateur améliorent significativement les scores de sécurité de 43,2 %, confirmant l'efficacité de la personnalisation dans l'alignement de la sécurité. Cependant, tous les attributs contextuels ne contribuent pas de manière égale à l'amélioration de la sécurité. Pour répondre à ce problème, nous développons RAISE - un cadre d'agent en deux étapes, sans entraînement, qui acquiert stratégiquement des informations spécifiques à l'utilisateur. RAISE améliore les scores de sécurité jusqu'à 31,6 % par rapport à six LLM standard, tout en maintenant un faible coût d'interaction de seulement 2,7 requêtes utilisateur en moyenne. Nos résultats soulignent l'importance d'une collecte sélective d'informations dans les domaines critiques pour la sécurité et proposent une solution pratique pour personnaliser les réponses des LLM sans réentraînement du modèle. Ce travail établit une base pour la recherche en sécurité qui s'adapte aux contextes individuels des utilisateurs plutôt que de supposer un standard universel de préjudice.
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.Summary
AI-Generated Summary