ChatPaper.aiChatPaper

¡Mantén la Seguridad! Evaluación de la Preservación de Políticas de Seguridad en Contextos de Modelos de Lenguaje de Gran Escala frente a Ataques Indirectos en Respuestas a Preguntas

Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering

May 21, 2025
Autores: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
cs.AI

Resumen

A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se implementan cada vez más en dominios sensibles como empresas y gobiernos, garantizar que cumplan con las políticas de seguridad definidas por el usuario dentro de un contexto específico es crucial, especialmente en lo que respecta a la no divulgación de información. Si bien estudios previos sobre LLMs se han centrado en la seguridad general y en datos socialmente sensibles, aún faltan puntos de referencia a gran escala para la preservación de la seguridad contextual frente a ataques. Para abordar esto, presentamos un nuevo conjunto de datos de referencia a gran escala, CoPriva, que evalúa la adherencia de los LLMs a políticas contextuales de no divulgación en tareas de respuesta a preguntas. Derivado de contextos realistas, nuestro conjunto de datos incluye políticas explícitas y consultas diseñadas como ataques directos e indirectos desafiantes que buscan obtener información prohibida. Evaluamos 10 LLMs en nuestro punto de referencia y revelamos una vulnerabilidad significativa: muchos modelos violan las políticas definidas por el usuario y filtran información sensible. Este fallo es particularmente grave frente a ataques indirectos, lo que destaca una brecha crítica en la alineación de seguridad actual de los LLMs para aplicaciones sensibles. Nuestro análisis revela que, aunque los modelos a menudo pueden identificar la respuesta correcta a una consulta, tienen dificultades para incorporar restricciones de políticas durante la generación. En contraste, muestran una capacidad parcial para revisar las salidas cuando se les solicita explícitamente. Nuestros hallazgos subrayan la necesidad urgente de métodos más robustos para garantizar la seguridad contextual.
English
As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.

Summary

AI-Generated Summary

PDF32May 26, 2025