Mantenha a Segurança! Avaliando a Preservação de Políticas de Segurança em Contextos de Modelos de Linguagem de Grande Escala Contra Ataques Indiretos em Respostas a Perguntas
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering
May 21, 2025
Autores: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
cs.AI
Resumo
À medida que os Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais implantados em domínios sensíveis, como empresas e governos, garantir que eles adiram às políticas de segurança definidas pelo usuário dentro do contexto é crucial — especialmente no que diz respeito à não divulgação de informações. Embora estudos anteriores sobre LLMs tenham se concentrado na segurança geral e em dados socialmente sensíveis, ainda faltam benchmarks em grande escala para a preservação da segurança contextual contra ataques. Para abordar essa lacuna, introduzimos um novo conjunto de dados de benchmark em grande escala, o CoPriva, que avalia a adesão dos LLMs a políticas contextuais de não divulgação em tarefas de resposta a perguntas. Derivado de contextos realistas, nosso conjunto de dados inclui políticas explícitas e consultas projetadas como ataques diretos e indiretos desafiadores que buscam informações proibidas. Avaliamos 10 LLMs em nosso benchmark e revelamos uma vulnerabilidade significativa: muitos modelos violam as políticas definidas pelo usuário e vazam informações sensíveis. Essa falha é particularmente grave contra ataques indiretos, destacando uma lacuna crítica no alinhamento de segurança dos LLMs atuais para aplicações sensíveis. Nossa análise revela que, embora os modelos frequentemente possam identificar a resposta correta para uma consulta, eles lutam para incorporar restrições de políticas durante a geração. Em contraste, eles exibem uma capacidade parcial de revisar as saídas quando explicitamente solicitados. Nossas descobertas ressaltam a necessidade urgente de métodos mais robustos para garantir a segurança contextual.
English
As Large Language Models (LLMs) are increasingly deployed in sensitive
domains such as enterprise and government, ensuring that they adhere to
user-defined security policies within context is critical-especially with
respect to information non-disclosure. While prior LLM studies have focused on
general safety and socially sensitive data, large-scale benchmarks for
contextual security preservation against attacks remain lacking. To address
this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating
LLM adherence to contextual non-disclosure policies in question answering.
Derived from realistic contexts, our dataset includes explicit policies and
queries designed as direct and challenging indirect attacks seeking prohibited
information. We evaluate 10 LLMs on our benchmark and reveal a significant
vulnerability: many models violate user-defined policies and leak sensitive
information. This failure is particularly severe against indirect attacks,
highlighting a critical gap in current LLM safety alignment for sensitive
applications. Our analysis reveals that while models can often identify the
correct answer to a query, they struggle to incorporate policy constraints
during generation. In contrast, they exhibit a partial ability to revise
outputs when explicitly prompted. Our findings underscore the urgent need for
more robust methods to guarantee contextual security.