ChatPaper.aiChatPaper

Sicherheit bewahren! Benchmarking der Sicherheitsrichtlinienbewahrung in Kontexten großer Sprachmodelle gegen indirekte Angriffe bei der Fragebeantwortung

Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

May 21, 2025
Autoren: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
cs.AI

Zusammenfassung

Da Large Language Models (LLMs) zunehmend in sensiblen Bereichen wie Unternehmen und Regierung eingesetzt werden, ist es entscheidend, sicherzustellen, dass sie benutzerdefinierte Sicherheitsrichtlinien im Kontext einhalten – insbesondere in Bezug auf die Nicht-Weitergabe von Informationen. Während sich frühere LLM-Studien auf allgemeine Sicherheit und sozial sensible Daten konzentriert haben, fehlen groß angelegte Benchmarks zur Bewertung der kontextuellen Sicherheitserhaltung gegen Angriffe. Um dies zu adressieren, stellen wir einen neuartigen groß angelegten Benchmark-Datensatz, CoPriva, vor, der die Einhaltung kontextueller Nicht-Weitergabe-Richtlinien durch LLMs in Frage-Antwort-Szenarien bewertet. Unser Datensatz, der aus realistischen Kontexten abgeleitet ist, umfasst explizite Richtlinien und Abfragen, die als direkte und herausfordernde indirekte Angriffe konzipiert sind, um verbotene Informationen zu erlangen. Wir evaluieren 10 LLMs anhand unseres Benchmarks und decken eine signifikante Schwachstelle auf: Viele Modelle verletzen benutzerdefinierte Richtlinien und geben sensible Informationen preis. Dieses Versagen ist besonders gravierend bei indirekten Angriffen, was eine kritische Lücke in der aktuellen Sicherheitsausrichtung von LLMs für sensible Anwendungen aufzeigt. Unsere Analyse zeigt, dass Modelle zwar oft die richtige Antwort auf eine Abfrage identifizieren können, jedoch Schwierigkeiten haben, Richtlinienbeschränkungen während der Generierung zu berücksichtigen. Im Gegensatz dazu zeigen sie eine teilweise Fähigkeit, Ausgaben zu überarbeiten, wenn sie explizit dazu aufgefordert werden. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit robusterer Methoden, um kontextuelle Sicherheit zu gewährleisten.
English
As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.

Summary

AI-Generated Summary

PDF32May 26, 2025