LLM을 위한 개인화된 안전성: 벤치마크 및 계획 기반 에이전트 접근법
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
저자: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
초록
대형 언어 모델(LLM)은 일반적으로 동일한 프롬프트에 대해 모든 사용자에게 동일하거나 유사한 응답을 생성하는데, 이는 사용자의 취약성이 크게 다른 고위험 애플리케이션에서 심각한 안전 위험을 초래할 수 있습니다. 기존의 안전성 평가는 주로 사실성, 편향성, 유해성과 같은 맥락 독립적인 지표에 의존하여, 동일한 응답이 사용자의 배경이나 상태에 따라 상이한 위험을 초래할 수 있다는 사실을 간과하고 있습니다. 이러한 간극을 메우기 위해 우리는 개인화된 안전성 개념을 도입하고, 7개의 민감한 도메인에 걸쳐 14,000개의 시나리오를 포함하며 맥락이 풍부한 버전과 맥락이 없는 버전을 모두 갖춘 PENGUIN 벤치마크를 제시합니다. 6개의 주요 LLM을 평가한 결과, 개인화된 사용자 정보가 안전성 점수를 43.2% 크게 향상시키는 것으로 나타나, 안전성 정렬에서 개인화의 효과를 확인했습니다. 그러나 모든 맥락 속성이 동일하게 안전성 향상에 기여하는 것은 아닙니다. 이를 해결하기 위해, 우리는 사용자별 배경 정보를 전략적으로 획득하는 학습이 필요 없는 2단계 에이전트 프레임워크인 RAISE를 개발했습니다. RAISE는 6개의 일반 LLM에 비해 최대 31.6%의 안전성 점수 향상을 달성하면서도 평균 단 2.7회의 사용자 질문이라는 낮은 상호작용 비용을 유지합니다. 우리의 연구 결과는 안전이 중요한 도메인에서 선택적 정보 수집의 중요성을 강조하며, 모델 재학습 없이 LLM 응답을 개인화할 수 있는 실용적인 해결책을 제공합니다. 이 연구는 보편적인 피해 기준을 가정하기보다는 개별 사용자 맥락에 적응하는 안전성 연구의 기반을 마련합니다.
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.Summary
AI-Generated Summary