ChatPaper.aiChatPaper

安全基準は万人に共通か?大規模言語モデルのユーザー固有安全性評価

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

February 20, 2025
著者: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI

要旨

大規模言語モデル(LLM)エージェントの利用が拡大するにつれ、その安全性に関する脆弱性が顕在化してきている。既存の広範なベンチマークは、LLMの安全性を評価する際に一般的な基準に依存しており、ユーザー固有の基準を見落としている。しかし、LLMの安全性基準は、すべてのユーザーに普遍的に適用されるのではなく、ユーザー固有のプロファイルに基づいて異なる場合がある。これにより、重要な研究課題が浮上する:ユーザー固有の安全性基準を考慮した場合、LLMエージェントは安全に行動するのか?LLMの安全な利用においてこの問題は重要であるにもかかわらず、現在のところ、ユーザー固有の安全性を評価するためのベンチマークデータセットは存在しない。このギャップを埋めるため、我々はユーザー固有のLLM安全性を評価する初のベンチマーク「U-SAFEBENCH」を提案する。18の広く使用されているLLMを評価した結果、現在のLLMはユーザー固有の安全性基準を考慮した場合に安全に行動できないことが明らかとなり、この分野における新たな発見となった。この脆弱性に対処するため、我々はチェーン・オブ・シンクに基づく簡易な改善策を提案し、その有効性を実証した。我々のベンチマークとコードはhttps://github.com/yeonjun-in/U-SafeBenchで公開されている。
English
As the use of large language model (LLM) agents continues to grow, their safety vulnerabilities have become increasingly evident. Extensive benchmarks evaluate various aspects of LLM safety by defining the safety relying heavily on general standards, overlooking user-specific standards. However, safety standards for LLM may vary based on a user-specific profiles rather than being universally consistent across all users. This raises a critical research question: Do LLM agents act safely when considering user-specific safety standards? Despite its importance for safe LLM use, no benchmark datasets currently exist to evaluate the user-specific safety of LLMs. To address this gap, we introduce U-SAFEBENCH, the first benchmark designed to assess user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs reveals current LLMs fail to act safely when considering user-specific safety standards, marking a new discovery in this field. To address this vulnerability, we propose a simple remedy based on chain-of-thought, demonstrating its effectiveness in improving user-specific safety. Our benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.

Summary

AI-Generated Summary

PDF162February 24, 2025