La norme de sécurité est-elle la même pour tous ? Évaluation de la sécurité spécifique à l'utilisateur pour les grands modèles de langage

papers.abstract

Alors que l'utilisation d'agents basés sur des modèles de langage de grande taille (LLM) continue de croître, leurs vulnérabilités en matière de sécurité deviennent de plus en plus évidentes. Des benchmarks étendus évaluent divers aspects de la sécurité des LLM en définissant celle-ci principalement selon des normes générales, négligeant les normes spécifiques aux utilisateurs. Cependant, les normes de sécurité pour les LLM peuvent varier en fonction de profils spécifiques aux utilisateurs plutôt que d'être universellement cohérentes pour tous les utilisateurs. Cela soulève une question de recherche cruciale : les agents LLM agissent-ils de manière sûre lorsqu'ils prennent en compte des normes de sécurité spécifiques aux utilisateurs ? Malgré son importance pour une utilisation sûre des LLM, aucun ensemble de données de benchmark n'existe actuellement pour évaluer la sécurité spécifique aux utilisateurs des LLM. Pour combler cette lacune, nous introduisons U-SAFEBENCH, le premier benchmark conçu pour évaluer l'aspect spécifique aux utilisateurs de la sécurité des LLM. Notre évaluation de 18 LLM largement utilisés révèle que les LLM actuels ne parviennent pas à agir de manière sûre lorsqu'ils prennent en compte des normes de sécurité spécifiques aux utilisateurs, marquant une nouvelle découverte dans ce domaine. Pour remédier à cette vulnérabilité, nous proposons une solution simple basée sur la chaîne de pensée, démontrant son efficacité pour améliorer la sécurité spécifique aux utilisateurs. Notre benchmark et notre code sont disponibles à l'adresse https://github.com/yeonjun-in/U-SafeBench.

English

As the use of large language model (LLM) agents continues to grow, their safety vulnerabilities have become increasingly evident. Extensive benchmarks evaluate various aspects of LLM safety by defining the safety relying heavily on general standards, overlooking user-specific standards. However, safety standards for LLM may vary based on a user-specific profiles rather than being universally consistent across all users. This raises a critical research question: Do LLM agents act safely when considering user-specific safety standards? Despite its importance for safe LLM use, no benchmark datasets currently exist to evaluate the user-specific safety of LLMs. To address this gap, we introduce U-SAFEBENCH, the first benchmark designed to assess user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs reveals current LLMs fail to act safely when considering user-specific safety standards, marking a new discovery in this field. To address this vulnerability, we propose a simple remedy based on chain-of-thought, demonstrating its effectiveness in improving user-specific safety. Our benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.

La norme de sécurité est-elle la même pour tous ? Évaluation de la sécurité spécifique à l'utilisateur pour les grands modèles de langage

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

papers.abstract

Support