Ist der Sicherheitsstandard für alle gleich? Benutzerspezifische Sicherheitsbewertung von großen Sprachmodellen
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
February 20, 2025
Autoren: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI
Zusammenfassung
Mit der zunehmenden Nutzung von Agenten auf Basis großer Sprachmodelle (LLMs) werden deren Sicherheitslücken immer deutlicher. Umfangreiche Benchmarks bewerten verschiedene Aspekte der LLM-Sicherheit, indem sie die Sicherheit stark an allgemeinen Standards ausrichten und dabei benutzerspezifische Standards vernachlässigen. Sicherheitsstandards für LLMs können jedoch je nach Benutzerprofil variieren, anstatt universell für alle Benutzer gleich zu sein. Dies wirft eine entscheidende Forschungsfrage auf: Verhalten sich LLM-Agenten sicher, wenn benutzerspezifische Sicherheitsstandards berücksichtigt werden? Trotz ihrer Bedeutung für die sichere Nutzung von LLMs existieren derzeit keine Benchmark-Datensätze, um die benutzerspezifische Sicherheit von LLMs zu bewerten. Um diese Lücke zu schließen, führen wir U-SAFEBENCH ein, den ersten Benchmark, der darauf abzielt, den benutzerspezifischen Aspekt der LLM-Sicherheit zu bewerten. Unsere Auswertung von 18 weit verbreiteten LLMs zeigt, dass aktuelle LLMs versagen, wenn es darum geht, sich unter Berücksichtigung benutzerspezifischer Sicherheitsstandards sicher zu verhalten – eine neue Erkenntnis in diesem Bereich. Um diese Schwachstelle zu beheben, schlagen wir eine einfache Lösung basierend auf Chain-of-Thought vor und demonstrieren deren Wirksamkeit bei der Verbesserung der benutzerspezifischen Sicherheit. Unser Benchmark und der Code sind unter https://github.com/yeonjun-in/U-SafeBench verfügbar.
English
As the use of large language model (LLM) agents continues to grow, their
safety vulnerabilities have become increasingly evident. Extensive benchmarks
evaluate various aspects of LLM safety by defining the safety relying heavily
on general standards, overlooking user-specific standards. However, safety
standards for LLM may vary based on a user-specific profiles rather than being
universally consistent across all users. This raises a critical research
question: Do LLM agents act safely when considering user-specific safety
standards? Despite its importance for safe LLM use, no benchmark datasets
currently exist to evaluate the user-specific safety of LLMs. To address this
gap, we introduce U-SAFEBENCH, the first benchmark designed to assess
user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs
reveals current LLMs fail to act safely when considering user-specific safety
standards, marking a new discovery in this field. To address this
vulnerability, we propose a simple remedy based on chain-of-thought,
demonstrating its effectiveness in improving user-specific safety. Our
benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.Summary
AI-Generated Summary