ChatPaper.aiChatPaper

Houd Beveiliging! Benchmarken van Beleidsbehoud voor Beveiliging in Contexten van Grote Taalmodellen tegen Indirecte Aanvallen in Vraagbeantwoording

Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

May 21, 2025
Auteurs: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
cs.AI

Samenvatting

Naarmate grote taalmmodellen (LLMs) steeds vaker worden ingezet in gevoelige domeinen zoals bedrijven en overheden, is het cruciaal om ervoor te zorgen dat ze zich binnen de context houden aan door gebruikers gedefinieerde beveiligingsbeleidsregels—met name met betrekking tot het niet openbaren van informatie. Hoewel eerdere LLM-studies zich hebben gericht op algemene veiligheid en sociaal gevoelige gegevens, ontbreken er nog steeds grootschalige benchmarks voor het behoud van contextuele beveiliging tegen aanvallen. Om dit aan te pakken, introduceren we een nieuwe grootschalige benchmarkdataset, CoPriva, die de naleving van contextuele niet-openbaarmakingsbeleidsregels door LLMs evalueert in vraag-antwoordsituaties. Afgeleid van realistische contexten, bevat onze dataset expliciete beleidsregels en queries die zijn ontworpen als directe en uitdagende indirecte aanvallen die verboden informatie proberen te verkrijgen. We evalueren 10 LLMs op onze benchmark en onthullen een significante kwetsbaarheid: veel modellen overtreden door gebruikers gedefinieerde beleidsregels en lekken gevoelige informatie. Dit falen is vooral ernstig tegen indirecte aanvallen, wat een kritieke kloof in de huidige veiligheidsafstemming van LLMs voor gevoelige toepassingen benadrukt. Onze analyse toont aan dat modellen vaak het juiste antwoord op een query kunnen identificeren, maar moeite hebben om beleidsbeperkingen tijdens de generatie te integreren. Daarentegen vertonen ze een gedeeltelijk vermogen om uitvoer te herzien wanneer hier expliciet om wordt gevraagd. Onze bevindingen onderstrepen de dringende behoefte aan robuustere methoden om contextuele beveiliging te garanderen.
English
As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.
PDF32May 26, 2025