O Padrão de Segurança é o Mesmo para Todos? Avaliação de Segurança Específica do Usuário de Modelos de Linguagem Grandes
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
February 20, 2025
Autores: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI
Resumo
À medida que o uso de agentes de modelos de linguagem grandes (LLM) continua a crescer, suas vulnerabilidades de segurança tornaram-se cada vez mais evidentes. Extensas avaliações avaliam vários aspectos da segurança de LLM ao definir a segurança baseando-se fortemente em padrões gerais, negligenciando padrões específicos do usuário. No entanto, os padrões de segurança para LLM podem variar com base em perfis específicos de usuários, em vez de serem universalmente consistentes entre todos os usuários. Isso levanta uma questão de pesquisa crítica: Os agentes de LLM agem de forma segura ao considerar padrões de segurança específicos do usuário? Apesar de sua importância para o uso seguro de LLM, atualmente não existem conjuntos de dados de referência para avaliar a segurança específica do usuário de LLMs. Para abordar essa lacuna, apresentamos o U-SAFEBENCH, o primeiro benchmark projetado para avaliar o aspecto específico do usuário da segurança de LLM. Nossa avaliação de 18 LLMs amplamente utilizados revela que os LLMs atuais falham em agir de forma segura ao considerar padrões de segurança específicos do usuário, marcando uma nova descoberta nesse campo. Para abordar essa vulnerabilidade, propomos um remédio simples baseado em encadeamento de pensamento, demonstrando sua eficácia na melhoria da segurança específica do usuário. Nosso benchmark e código estão disponíveis em https://github.com/yeonjun-in/U-SafeBench.
English
As the use of large language model (LLM) agents continues to grow, their
safety vulnerabilities have become increasingly evident. Extensive benchmarks
evaluate various aspects of LLM safety by defining the safety relying heavily
on general standards, overlooking user-specific standards. However, safety
standards for LLM may vary based on a user-specific profiles rather than being
universally consistent across all users. This raises a critical research
question: Do LLM agents act safely when considering user-specific safety
standards? Despite its importance for safe LLM use, no benchmark datasets
currently exist to evaluate the user-specific safety of LLMs. To address this
gap, we introduce U-SAFEBENCH, the first benchmark designed to assess
user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs
reveals current LLMs fail to act safely when considering user-specific safety
standards, marking a new discovery in this field. To address this
vulnerability, we propose a simple remedy based on chain-of-thought,
demonstrating its effectiveness in improving user-specific safety. Our
benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.Summary
AI-Generated Summary