Maintenez la sécurité ! Évaluation de la préservation des politiques de sécurité dans les contextes de grands modèles de langage face aux attaques indirectes dans les systèmes de question-réponse
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering
May 21, 2025
Auteurs: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
cs.AI
Résumé
Alors que les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des domaines sensibles tels que les entreprises et les gouvernements, il est crucial de s'assurer qu'ils respectent les politiques de sécurité définies par l'utilisateur dans un contexte donné, en particulier en ce qui concerne la non-divulgation d'informations. Bien que les études précédentes sur les LLM se soient concentrées sur la sécurité générale et les données socialement sensibles, il manque encore des benchmarks à grande échelle pour la préservation de la sécurité contextuelle face aux attaques. Pour remédier à cela, nous introduisons un nouveau jeu de données de référence à grande échelle, CoPriva, qui évalue l'adhésion des LLM aux politiques de non-divulgation contextuelle dans le cadre de réponses à des questions. Tiré de contextes réalistes, notre jeu de données inclut des politiques explicites et des requêtes conçues comme des attaques directes et indirectes difficiles visant à obtenir des informations interdites. Nous évaluons 10 LLM sur notre benchmark et révélons une vulnérabilité significative : de nombreux modèles violent les politiques définies par l'utilisateur et divulguent des informations sensibles. Cet échec est particulièrement grave face aux attaques indirectes, mettant en lumière une lacune critique dans l'alignement de la sécurité des LLM actuels pour les applications sensibles. Notre analyse montre que si les modèles peuvent souvent identifier la bonne réponse à une requête, ils ont du mal à intégrer les contraintes de politique lors de la génération. En revanche, ils montrent une capacité partielle à réviser leurs sorties lorsqu'ils y sont explicitement invités. Nos résultats soulignent le besoin urgent de méthodes plus robustes pour garantir la sécurité contextuelle.
English
As Large Language Models (LLMs) are increasingly deployed in sensitive
domains such as enterprise and government, ensuring that they adhere to
user-defined security policies within context is critical-especially with
respect to information non-disclosure. While prior LLM studies have focused on
general safety and socially sensitive data, large-scale benchmarks for
contextual security preservation against attacks remain lacking. To address
this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating
LLM adherence to contextual non-disclosure policies in question answering.
Derived from realistic contexts, our dataset includes explicit policies and
queries designed as direct and challenging indirect attacks seeking prohibited
information. We evaluate 10 LLMs on our benchmark and reveal a significant
vulnerability: many models violate user-defined policies and leak sensitive
information. This failure is particularly severe against indirect attacks,
highlighting a critical gap in current LLM safety alignment for sensitive
applications. Our analysis reveals that while models can often identify the
correct answer to a query, they struggle to incorporate policy constraints
during generation. In contrast, they exhibit a partial ability to revise
outputs when explicitly prompted. Our findings underscore the urgent need for
more robust methods to guarantee contextual security.Summary
AI-Generated Summary