¿Es el estándar de seguridad el mismo para todos? Evaluación de seguridad específica del usuario en modelos de lenguaje de gran escala

Resumen

A medida que el uso de agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) continúa creciendo, sus vulnerabilidades de seguridad se han vuelto cada vez más evidentes. Los extensos puntos de referencia evalúan diversos aspectos de la seguridad de los LLM al definir la seguridad basándose en gran medida en estándares generales, pasando por alto los estándares específicos del usuario. Sin embargo, los estándares de seguridad para los LLM pueden variar según perfiles específicos del usuario en lugar de ser universalmente consistentes para todos los usuarios. Esto plantea una pregunta de investigación crítica: ¿Actúan los agentes de LLM de manera segura cuando se consideran estándares de seguridad específicos del usuario? A pesar de su importancia para el uso seguro de los LLM, actualmente no existen conjuntos de datos de referencia para evaluar la seguridad específica del usuario de los LLM. Para abordar esta brecha, presentamos U-SAFEBENCH, el primer punto de referencia diseñado para evaluar el aspecto de seguridad específico del usuario de los LLM. Nuestra evaluación de 18 LLM ampliamente utilizados revela que los LLM actuales no actúan de manera segura cuando se consideran estándares de seguridad específicos del usuario, lo que marca un nuevo descubrimiento en este campo. Para abordar esta vulnerabilidad, proponemos una solución simple basada en la cadena de pensamiento, demostrando su eficacia para mejorar la seguridad específica del usuario. Nuestro punto de referencia y código están disponibles en https://github.com/yeonjun-in/U-SafeBench.

English

As the use of large language model (LLM) agents continues to grow, their safety vulnerabilities have become increasingly evident. Extensive benchmarks evaluate various aspects of LLM safety by defining the safety relying heavily on general standards, overlooking user-specific standards. However, safety standards for LLM may vary based on a user-specific profiles rather than being universally consistent across all users. This raises a critical research question: Do LLM agents act safely when considering user-specific safety standards? Despite its importance for safe LLM use, no benchmark datasets currently exist to evaluate the user-specific safety of LLMs. To address this gap, we introduce U-SAFEBENCH, the first benchmark designed to assess user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs reveals current LLMs fail to act safely when considering user-specific safety standards, marking a new discovery in this field. To address this vulnerability, we propose a simple remedy based on chain-of-thought, demonstrating its effectiveness in improving user-specific safety. Our benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.

¿Es el estándar de seguridad el mismo para todos? Evaluación de seguridad específica del usuario en modelos de lenguaje de gran escala

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

Resumen

Support