Запретная наука: Бенчмарк и научные тесты отказа в использовании двойного назначения искусственного интеллекта
Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
February 8, 2025
Авторы: David Noever, Forrest McKee
cs.AI
Аннотация
Разработка надежных стандартов безопасности для больших языковых моделей требует открытых, воспроизводимых наборов данных, способных измерить как адекватное отклонение от вредного контента, так и потенциальное чрезмерное ограничение легитимного научного дискурса. Мы представляем набор данных и тестовую среду с открытым исходным кодом для оценки механизмов безопасности LLM по запросам, связанным в основном с контролируемыми веществами, анализируя ответы четырех основных моделей на систематически изменяемые подсказки. Наши результаты показывают различные профили безопасности: Claude-3.5-sonnet продемонстрировал наиболее консервативный подход с 73% отказов и 27% разрешений, в то время как Mistral пытался ответить на 100% запросов. GPT-3.5-turbo показал умеренное ограничение с 10% отказов и 90% разрешений, а Grok-2 зарегистрировал 20% отказов и 80% разрешений. Тестирование стратегий изменения подсказок показало снижение согласованности ответов с 85% при одиночных подсказках до 65% при пяти вариациях. Этот общедоступный стандарт позволяет систематически оценивать критический баланс между необходимыми ограничениями безопасности и потенциальным чрезмерным цензурированием легитимного научного исследования, обеспечивая основу для измерения прогресса в реализации безопасности искусственного интеллекта. Анализ цепочки мыслей выявляет потенциальные уязвимости в механизмах безопасности, подчеркивая сложность внедрения надежных механизмов защиты без чрезмерного ограничения желательного и допустимого научного дискурса.
English
The development of robust safety benchmarks for large language models
requires open, reproducible datasets that can measure both appropriate refusal
of harmful content and potential over-restriction of legitimate scientific
discourse. We present an open-source dataset and testing framework for
evaluating LLM safety mechanisms across mainly controlled substance queries,
analyzing four major models' responses to systematically varied prompts. Our
results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the
most conservative approach with 73% refusals and 27% allowances, while Mistral
attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction
with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and
80% allowances. Testing prompt variation strategies revealed decreasing
response consistency, from 85% with single prompts to 65% with five variations.
This publicly available benchmark enables systematic evaluation of the critical
balance between necessary safety restrictions and potential over-censorship of
legitimate scientific inquiry, while providing a foundation for measuring
progress in AI safety implementation. Chain-of-thought analysis reveals
potential vulnerabilities in safety mechanisms, highlighting the complexity of
implementing robust safeguards without unduly restricting desirable and valid
scientific discourse.Summary
AI-Generated Summary