La norme de sécurité est-elle la même pour tous ? Évaluation de la sécurité spécifique à l'utilisateur pour les grands modèles de langage
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
February 20, 2025
Auteurs: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI
Résumé
Alors que l'utilisation d'agents basés sur des modèles de langage de grande taille (LLM) continue de croître, leurs vulnérabilités en matière de sécurité deviennent de plus en plus évidentes. Des benchmarks étendus évaluent divers aspects de la sécurité des LLM en définissant celle-ci principalement selon des normes générales, négligeant les normes spécifiques aux utilisateurs. Cependant, les normes de sécurité pour les LLM peuvent varier en fonction de profils spécifiques aux utilisateurs plutôt que d'être universellement cohérentes pour tous les utilisateurs. Cela soulève une question de recherche cruciale : les agents LLM agissent-ils de manière sûre lorsqu'ils prennent en compte des normes de sécurité spécifiques aux utilisateurs ? Malgré son importance pour une utilisation sûre des LLM, aucun ensemble de données de benchmark n'existe actuellement pour évaluer la sécurité spécifique aux utilisateurs des LLM. Pour combler cette lacune, nous introduisons U-SAFEBENCH, le premier benchmark conçu pour évaluer l'aspect spécifique aux utilisateurs de la sécurité des LLM. Notre évaluation de 18 LLM largement utilisés révèle que les LLM actuels ne parviennent pas à agir de manière sûre lorsqu'ils prennent en compte des normes de sécurité spécifiques aux utilisateurs, marquant une nouvelle découverte dans ce domaine. Pour remédier à cette vulnérabilité, nous proposons une solution simple basée sur la chaîne de pensée, démontrant son efficacité pour améliorer la sécurité spécifique aux utilisateurs. Notre benchmark et notre code sont disponibles à l'adresse https://github.com/yeonjun-in/U-SafeBench.
English
As the use of large language model (LLM) agents continues to grow, their
safety vulnerabilities have become increasingly evident. Extensive benchmarks
evaluate various aspects of LLM safety by defining the safety relying heavily
on general standards, overlooking user-specific standards. However, safety
standards for LLM may vary based on a user-specific profiles rather than being
universally consistent across all users. This raises a critical research
question: Do LLM agents act safely when considering user-specific safety
standards? Despite its importance for safe LLM use, no benchmark datasets
currently exist to evaluate the user-specific safety of LLMs. To address this
gap, we introduce U-SAFEBENCH, the first benchmark designed to assess
user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs
reveals current LLMs fail to act safely when considering user-specific safety
standards, marking a new discovery in this field. To address this
vulnerability, we propose a simple remedy based on chain-of-thought,
demonstrating its effectiveness in improving user-specific safety. Our
benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.Summary
AI-Generated Summary