Is de veiligheidsnorm voor iedereen hetzelfde? Gebruikersspecifieke veiligheidsevaluatie van grote taalmodelle
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
February 20, 2025
Auteurs: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI
Samenvatting
Naarmate het gebruik van grote taalmodel (LLM) agenten blijft groeien, worden hun veiligheidskwetsbaarheden steeds duidelijker. Uitgebreide benchmarks evalueren verschillende aspecten van LLM-veiligheid door de veiligheid grotendeels te baseren op algemene standaarden, waarbij gebruikerspecifieke standaarden over het hoofd worden gezien. Echter kunnen veiligheidsstandaarden voor LLM variëren op basis van gebruikerspecifieke profielen in plaats van universeel consistent te zijn voor alle gebruikers. Dit roept een kritieke onderzoeksvraag op: Handelen LLM-agenten veilig wanneer rekening wordt gehouden met gebruikerspecifieke veiligheidsstandaarden? Ondanks het belang hiervan voor het veilige gebruik van LLM, bestaan er momenteel geen benchmarkdatasets om de gebruikerspecifieke veiligheid van LLM's te evalueren. Om deze leemte te vullen, introduceren we U-SAFEBENCH, de eerste benchmark die is ontworpen om het gebruikerspecifieke aspect van LLM-veiligheid te beoordelen. Onze evaluatie van 18 veelgebruikte LLM's toont aan dat huidige LLM's niet veilig handelen wanneer rekening wordt gehouden met gebruikerspecifieke veiligheidsstandaarden, wat een nieuwe ontdekking in dit veld markeert. Om deze kwetsbaarheid aan te pakken, stellen we een eenvoudige oplossing voor op basis van chain-of-thought, waarvan we de effectiviteit aantonen in het verbeteren van gebruikerspecifieke veiligheid. Onze benchmark en code zijn beschikbaar op https://github.com/yeonjun-in/U-SafeBench.
English
As the use of large language model (LLM) agents continues to grow, their
safety vulnerabilities have become increasingly evident. Extensive benchmarks
evaluate various aspects of LLM safety by defining the safety relying heavily
on general standards, overlooking user-specific standards. However, safety
standards for LLM may vary based on a user-specific profiles rather than being
universally consistent across all users. This raises a critical research
question: Do LLM agents act safely when considering user-specific safety
standards? Despite its importance for safe LLM use, no benchmark datasets
currently exist to evaluate the user-specific safety of LLMs. To address this
gap, we introduce U-SAFEBENCH, the first benchmark designed to assess
user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs
reveals current LLMs fail to act safely when considering user-specific safety
standards, marking a new discovery in this field. To address this
vulnerability, we propose a simple remedy based on chain-of-thought,
demonstrating its effectiveness in improving user-specific safety. Our
benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.Summary
AI-Generated Summary