ChatPaper.aiChatPaper

Personalisierte Sicherheit in LLMs: Ein Benchmark und ein Planungsbasierter Agentenansatz

Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach

May 24, 2025
Autoren: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) erzeugen typischerweise identische oder ähnliche Antworten für alle Benutzer bei gleichem Prompt, was ernsthafte Sicherheitsrisiken in hochsensiblen Anwendungen birgt, bei denen die Anfälligkeiten der Benutzer stark variieren. Bestehende Sicherheitsbewertungen stützen sich hauptsächlich auf kontextunabhängige Metriken – wie Faktentreue, Voreingenommenheit oder Toxizität – und übersehen dabei, dass dieselbe Antwort je nach Hintergrund oder Zustand des Benutzers unterschiedliche Risiken bergen kann. Wir führen personalisierte Sicherheit ein, um diese Lücke zu schließen, und präsentieren PENGUIN – einen Benchmark, der 14.000 Szenarien in sieben sensiblen Domänen mit sowohl kontextreichen als auch kontextfreien Varianten umfasst. Bei der Bewertung von sechs führenden LLMs zeigen wir, dass personalisierte Benutzerinformationen die Sicherheitswerte signifikant um 43,2 % verbessern, was die Wirksamkeit der Personalisierung bei der Sicherheitsausrichtung bestätigt. Allerdings tragen nicht alle Kontextattribute gleichermaßen zur Sicherheitsverbesserung bei. Um dies zu adressieren, entwickeln wir RAISE – ein trainingsfreies, zweistufiges Agenten-Framework, das strategisch benutzerspezifische Hintergrundinformationen erfasst. RAISE verbessert die Sicherheitswerte um bis zu 31,6 % gegenüber sechs Standard-LLMs, bei gleichzeitig geringen Interaktionskosten von durchschnittlich nur 2,7 Benutzeranfragen. Unsere Ergebnisse unterstreichen die Bedeutung selektiver Informationsbeschaffung in sicherheitskritischen Domänen und bieten eine praktische Lösung zur Personalisierung von LLM-Antworten ohne Modell-Neutraining. Diese Arbeit legt den Grundstein für Sicherheitsforschung, die sich an individuellen Benutzerkontexten orientiert, anstatt von einem universellen Schadensstandard auszugehen.
English
Large language models (LLMs) typically generate identical or similar responses for all users given the same prompt, posing serious safety risks in high-stakes applications where user vulnerabilities differ widely. Existing safety evaluations primarily rely on context-independent metrics - such as factuality, bias, or toxicity - overlooking the fact that the same response may carry divergent risks depending on the user's background or condition. We introduce personalized safety to fill this gap and present PENGUIN - a benchmark comprising 14,000 scenarios across seven sensitive domains with both context-rich and context-free variants. Evaluating six leading LLMs, we demonstrate that personalized user information significantly improves safety scores by 43.2%, confirming the effectiveness of personalization in safety alignment. However, not all context attributes contribute equally to safety enhancement. To address this, we develop RAISE - a training-free, two-stage agent framework that strategically acquires user-specific background. RAISE improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining a low interaction cost of just 2.7 user queries on average. Our findings highlight the importance of selective information gathering in safety-critical domains and offer a practical solution for personalizing LLM responses without model retraining. This work establishes a foundation for safety research that adapts to individual user contexts rather than assuming a universal harm standard.

Summary

AI-Generated Summary

PDF142May 29, 2025