Mantenha a Segurança! Avaliando a Preservação de Políticas de Segurança em Contextos de Modelos de Linguagem de Grande Escala Contra Ataques Indiretos em Respostas a Perguntas

Resumo

À medida que os Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais implantados em domínios sensíveis, como empresas e governos, garantir que eles adiram às políticas de segurança definidas pelo usuário dentro do contexto é crucial — especialmente no que diz respeito à não divulgação de informações. Embora estudos anteriores sobre LLMs tenham se concentrado na segurança geral e em dados socialmente sensíveis, ainda faltam benchmarks em grande escala para a preservação da segurança contextual contra ataques. Para abordar essa lacuna, introduzimos um novo conjunto de dados de benchmark em grande escala, o CoPriva, que avalia a adesão dos LLMs a políticas contextuais de não divulgação em tarefas de resposta a perguntas. Derivado de contextos realistas, nosso conjunto de dados inclui políticas explícitas e consultas projetadas como ataques diretos e indiretos desafiadores que buscam informações proibidas. Avaliamos 10 LLMs em nosso benchmark e revelamos uma vulnerabilidade significativa: muitos modelos violam as políticas definidas pelo usuário e vazam informações sensíveis. Essa falha é particularmente grave contra ataques indiretos, destacando uma lacuna crítica no alinhamento de segurança dos LLMs atuais para aplicações sensíveis. Nossa análise revela que, embora os modelos frequentemente possam identificar a resposta correta para uma consulta, eles lutam para incorporar restrições de políticas durante a geração. Em contraste, eles exibem uma capacidade parcial de revisar as saídas quando explicitamente solicitados. Nossas descobertas ressaltam a necessidade urgente de métodos mais robustos para garantir a segurança contextual.

English

As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.

Mantenha a Segurança! Avaliando a Preservação de Políticas de Segurança em Contextos de Modelos de Linguagem de Grande Escala Contra Ataques Indiretos em Respostas a Perguntas

Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

Resumo

Support