Gepersonaliseerde Veiligheid in LLM's: Een Benchmark en een Planning-Gebaseerde Agentbenadering
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
Auteurs: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) genereren doorgaans identieke of vergelijkbare reacties voor alle gebruikers bij dezelfde prompt, wat ernstige veiligheidsrisico's oplevert in hoogrisicotoepassingen waar gebruikerskwetsbaarheden sterk verschillen. Bestaande veiligheidsevaluaties zijn voornamelijk gebaseerd op context-onafhankelijke metrieken - zoals feitelijkheid, bias of toxiciteit - waarbij over het hoofd wordt gezien dat dezelfde reactie uiteenlopende risico's kan opleveren afhankelijk van de achtergrond of situatie van de gebruiker. Wij introduceren gepersonaliseerde veiligheid om deze leemte op te vullen en presenteren PENGUIN - een benchmark bestaande uit 14.000 scenario's in zeven gevoelige domeinen met zowel contextrijke als contextvrije varianten. Door zes toonaangevende LLMs te evalueren, tonen we aan dat gepersonaliseerde gebruikersinformatie de veiligheidsscores met 43,2% significant verbetert, wat de effectiviteit van personalisatie in veiligheidsafstemming bevestigt. Niet alle contextkenmerken dragen echter evenveel bij aan de veiligheidsverbetering. Om dit aan te pakken, ontwikkelen we RAISE - een trainingsvrij, tweestaps agentframework dat strategisch gebruikerspecifieke achtergrondinformatie verkrijgt. RAISE verbetert de veiligheidsscores met tot wel 31,6% ten opzichte van zes standaard LLMs, terwijl het een lage interactiekost behoudt van slechts 2,7 gebruikersvragen gemiddeld. Onze bevindingen benadrukken het belang van selectieve informatieverzameling in veiligheidskritieke domeinen en bieden een praktische oplossing voor het personaliseren van LLM-reacties zonder modelhertraining. Dit werk legt een basis voor veiligheidsonderzoek dat zich aanpast aan individuele gebruikerscontexten in plaats van uit te gaan van een universele schadestandaard.
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.