Gepersonaliseerde Veiligheid in LLM's: Een Benchmark en een Planning-Gebaseerde Agentbenadering

Samenvatting

Grote taalmodellen (LLMs) genereren doorgaans identieke of vergelijkbare reacties voor alle gebruikers bij dezelfde prompt, wat ernstige veiligheidsrisico's oplevert in hoogrisicotoepassingen waar gebruikerskwetsbaarheden sterk verschillen. Bestaande veiligheidsevaluaties zijn voornamelijk gebaseerd op context-onafhankelijke metrieken - zoals feitelijkheid, bias of toxiciteit - waarbij over het hoofd wordt gezien dat dezelfde reactie uiteenlopende risico's kan opleveren afhankelijk van de achtergrond of situatie van de gebruiker. Wij introduceren gepersonaliseerde veiligheid om deze leemte op te vullen en presenteren PENGUIN - een benchmark bestaande uit 14.000 scenario's in zeven gevoelige domeinen met zowel contextrijke als contextvrije varianten. Door zes toonaangevende LLMs te evalueren, tonen we aan dat gepersonaliseerde gebruikersinformatie de veiligheidsscores met 43,2% significant verbetert, wat de effectiviteit van personalisatie in veiligheidsafstemming bevestigt. Niet alle contextkenmerken dragen echter evenveel bij aan de veiligheidsverbetering. Om dit aan te pakken, ontwikkelen we RAISE - een trainingsvrij, tweestaps agentframework dat strategisch gebruikerspecifieke achtergrondinformatie verkrijgt. RAISE verbetert de veiligheidsscores met tot wel 31,6% ten opzichte van zes standaard LLMs, terwijl het een lage interactiekost behoudt van slechts 2,7 gebruikersvragen gemiddeld. Onze bevindingen benadrukken het belang van selectieve informatieverzameling in veiligheidskritieke domeinen en bieden een praktische oplossing voor het personaliseren van LLM-reacties zonder modelhertraining. Dit werk legt een basis voor veiligheidsonderzoek dat zich aanpast aan individuele gebruikerscontexten in plaats van uit te gaan van een universele schadestandaard.

English

Large language models (LLMs) typically generate identical or similar responses for all users given the same prompt, posing serious safety risks in high-stakes applications where user vulnerabilities differ widely. Existing safety evaluations primarily rely on context-independent metrics - such as factuality, bias, or toxicity - overlooking the fact that the same response may carry divergent risks depending on the user's background or condition. We introduce personalized safety to fill this gap and present PENGUIN - a benchmark comprising 14,000 scenarios across seven sensitive domains with both context-rich and context-free variants. Evaluating six leading LLMs, we demonstrate that personalized user information significantly improves safety scores by 43.2%, confirming the effectiveness of personalization in safety alignment. However, not all context attributes contribute equally to safety enhancement. To address this, we develop RAISE - a training-free, two-stage agent framework that strategically acquires user-specific background. RAISE improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining a low interaction cost of just 2.7 user queries on average. Our findings highlight the importance of selective information gathering in safety-critical domains and offer a practical solution for personalizing LLM responses without model retraining. This work establishes a foundation for safety research that adapts to individual user contexts rather than assuming a universal harm standard.

Gepersonaliseerde Veiligheid in LLM's: Een Benchmark en een Planning-Gebaseerde Agentbenadering

Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

Samenvatting

Support