Одинаковы ли стандарты безопасности для всех? Пользовательская оценка безопасности крупных языковых моделей
Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models
February 20, 2025
Авторы: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI
Аннотация
По мере роста использования агентов на основе больших языковых моделей (LLM), их уязвимости в плане безопасности становятся всё более очевидными. Существующие тестовые наборы оценивают различные аспекты безопасности LLM, опираясь в основном на общие стандарты, игнорируя при этом пользовательские стандарты. Однако стандарты безопасности для LLM могут варьироваться в зависимости от профилей конкретных пользователей, а не быть универсальными для всех. Это поднимает важный исследовательский вопрос: Действуют ли агенты LLM безопасно с учётом пользовательских стандартов безопасности? Несмотря на важность этого аспекта для безопасного использования LLM, в настоящее время отсутствуют тестовые наборы данных для оценки безопасности LLM с учётом пользовательских стандартов. Чтобы устранить этот пробел, мы представляем U-SAFEBENCH — первый тестовый набор, предназначенный для оценки безопасности LLM с учётом пользовательских аспектов. Наша оценка 18 широко используемых LLM показывает, что текущие модели не действуют безопасно при рассмотрении пользовательских стандартов безопасности, что является новым открытием в этой области. Для устранения этой уязвимости мы предлагаем простое решение, основанное на цепочке рассуждений (chain-of-thought), и демонстрируем его эффективность в повышении безопасности с учётом пользовательских стандартов. Наш тестовый набор и код доступны по адресу https://github.com/yeonjun-in/U-SafeBench.
English
As the use of large language model (LLM) agents continues to grow, their
safety vulnerabilities have become increasingly evident. Extensive benchmarks
evaluate various aspects of LLM safety by defining the safety relying heavily
on general standards, overlooking user-specific standards. However, safety
standards for LLM may vary based on a user-specific profiles rather than being
universally consistent across all users. This raises a critical research
question: Do LLM agents act safely when considering user-specific safety
standards? Despite its importance for safe LLM use, no benchmark datasets
currently exist to evaluate the user-specific safety of LLMs. To address this
gap, we introduce U-SAFEBENCH, the first benchmark designed to assess
user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs
reveals current LLMs fail to act safely when considering user-specific safety
standards, marking a new discovery in this field. To address this
vulnerability, we propose a simple remedy based on chain-of-thought,
demonstrating its effectiveness in improving user-specific safety. Our
benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.Summary
AI-Generated Summary