LLMにおけるパーソナライズされた安全性:ベンチマークとプランニングベースのエージェントアプローチ
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
著者: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
要旨
大規模言語モデル(LLM)は、通常、同じプロンプトに対してすべてのユーザーに同一または類似の応答を生成するため、ユーザーの脆弱性が大きく異なる高リスクアプリケーションにおいて重大な安全性リスクを引き起こします。既存の安全性評価は主に、事実性、バイアス、有害性などの文脈に依存しない指標に依存しており、同じ応答がユーザーの背景や状況によって異なるリスクをもたらす可能性があることを見落としています。このギャップを埋めるため、我々はパーソナライズドセーフティを導入し、7つのセンシティブなドメインにわたる14,000のシナリオを含むPENGUINベンチマークを提示します。これには、文脈豊かなバージョンと文脈に依存しないバージョンの両方が含まれます。6つの主要なLLMを評価した結果、パーソナライズされたユーザー情報が安全性スコアを43.2%向上させることが示され、安全性アラインメントにおけるパーソナライゼーションの有効性が確認されました。しかし、すべての文脈属性が同等に安全性向上に寄与するわけではありません。これを解決するため、我々はRAISEを開発しました。これは、ユーザー固有の背景を戦略的に取得するトレーニング不要の2段階エージェントフレームワークです。RAISEは、6つの標準LLMに対して最大31.6%の安全性スコア向上を実現し、平均わずか2.7回のユーザークエリという低いインタラクションコストを維持します。我々の研究結果は、安全性が重要なドメインにおける選択的情報収集の重要性を強調し、モデルの再トレーニングなしにLLMの応答をパーソナライズする実用的なソリューションを提供します。この研究は、普遍的な危害基準を仮定するのではなく、個々のユーザーコンテキストに適応する安全性研究の基盤を確立します。
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.Summary
AI-Generated Summary