¿Es el estándar de seguridad el mismo para todos? Evaluación de seguridad específica del usuario en modelos de lenguaje de gran escala
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
February 20, 2025
Autores: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI
Resumen
A medida que el uso de agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) continúa creciendo, sus vulnerabilidades de seguridad se han vuelto cada vez más evidentes. Los extensos puntos de referencia evalúan diversos aspectos de la seguridad de los LLM al definir la seguridad basándose en gran medida en estándares generales, pasando por alto los estándares específicos del usuario. Sin embargo, los estándares de seguridad para los LLM pueden variar según perfiles específicos del usuario en lugar de ser universalmente consistentes para todos los usuarios. Esto plantea una pregunta de investigación crítica: ¿Actúan los agentes de LLM de manera segura cuando se consideran estándares de seguridad específicos del usuario? A pesar de su importancia para el uso seguro de los LLM, actualmente no existen conjuntos de datos de referencia para evaluar la seguridad específica del usuario de los LLM. Para abordar esta brecha, presentamos U-SAFEBENCH, el primer punto de referencia diseñado para evaluar el aspecto de seguridad específico del usuario de los LLM. Nuestra evaluación de 18 LLM ampliamente utilizados revela que los LLM actuales no actúan de manera segura cuando se consideran estándares de seguridad específicos del usuario, lo que marca un nuevo descubrimiento en este campo. Para abordar esta vulnerabilidad, proponemos una solución simple basada en la cadena de pensamiento, demostrando su eficacia para mejorar la seguridad específica del usuario. Nuestro punto de referencia y código están disponibles en https://github.com/yeonjun-in/U-SafeBench.
English
As the use of large language model (LLM) agents continues to grow, their
safety vulnerabilities have become increasingly evident. Extensive benchmarks
evaluate various aspects of LLM safety by defining the safety relying heavily
on general standards, overlooking user-specific standards. However, safety
standards for LLM may vary based on a user-specific profiles rather than being
universally consistent across all users. This raises a critical research
question: Do LLM agents act safely when considering user-specific safety
standards? Despite its importance for safe LLM use, no benchmark datasets
currently exist to evaluate the user-specific safety of LLMs. To address this
gap, we introduce U-SAFEBENCH, the first benchmark designed to assess
user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs
reveals current LLMs fail to act safely when considering user-specific safety
standards, marking a new discovery in this field. To address this
vulnerability, we propose a simple remedy based on chain-of-thought,
demonstrating its effectiveness in improving user-specific safety. Our
benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.Summary
AI-Generated Summary