Одинаковы ли стандарты безопасности для всех? Пользовательская оценка безопасности крупных языковых моделей

Аннотация

По мере роста использования агентов на основе больших языковых моделей (LLM), их уязвимости в плане безопасности становятся всё более очевидными. Существующие тестовые наборы оценивают различные аспекты безопасности LLM, опираясь в основном на общие стандарты, игнорируя при этом пользовательские стандарты. Однако стандарты безопасности для LLM могут варьироваться в зависимости от профилей конкретных пользователей, а не быть универсальными для всех. Это поднимает важный исследовательский вопрос: Действуют ли агенты LLM безопасно с учётом пользовательских стандартов безопасности? Несмотря на важность этого аспекта для безопасного использования LLM, в настоящее время отсутствуют тестовые наборы данных для оценки безопасности LLM с учётом пользовательских стандартов. Чтобы устранить этот пробел, мы представляем U-SAFEBENCH — первый тестовый набор, предназначенный для оценки безопасности LLM с учётом пользовательских аспектов. Наша оценка 18 широко используемых LLM показывает, что текущие модели не действуют безопасно при рассмотрении пользовательских стандартов безопасности, что является новым открытием в этой области. Для устранения этой уязвимости мы предлагаем простое решение, основанное на цепочке рассуждений (chain-of-thought), и демонстрируем его эффективность в повышении безопасности с учётом пользовательских стандартов. Наш тестовый набор и код доступны по адресу https://github.com/yeonjun-in/U-SafeBench.

English

As the use of large language model (LLM) agents continues to grow, their safety vulnerabilities have become increasingly evident. Extensive benchmarks evaluate various aspects of LLM safety by defining the safety relying heavily on general standards, overlooking user-specific standards. However, safety standards for LLM may vary based on a user-specific profiles rather than being universally consistent across all users. This raises a critical research question: Do LLM agents act safely when considering user-specific safety standards? Despite its importance for safe LLM use, no benchmark datasets currently exist to evaluate the user-specific safety of LLMs. To address this gap, we introduce U-SAFEBENCH, the first benchmark designed to assess user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs reveals current LLMs fail to act safely when considering user-specific safety standards, marking a new discovery in this field. To address this vulnerability, we propose a simple remedy based on chain-of-thought, demonstrating its effectiveness in improving user-specific safety. Our benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.

Одинаковы ли стандарты безопасности для всех? Пользовательская оценка безопасности крупных языковых моделей

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

Аннотация

Support