ChatPaper.aiChatPaper

Запретная наука: Бенчмарк и научные тесты отказа в использовании двойного назначения искусственного интеллекта

Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

February 8, 2025
Авторы: David Noever, Forrest McKee
cs.AI

Аннотация

Разработка надежных стандартов безопасности для больших языковых моделей требует открытых, воспроизводимых наборов данных, способных измерить как адекватное отклонение от вредного контента, так и потенциальное чрезмерное ограничение легитимного научного дискурса. Мы представляем набор данных и тестовую среду с открытым исходным кодом для оценки механизмов безопасности LLM по запросам, связанным в основном с контролируемыми веществами, анализируя ответы четырех основных моделей на систематически изменяемые подсказки. Наши результаты показывают различные профили безопасности: Claude-3.5-sonnet продемонстрировал наиболее консервативный подход с 73% отказов и 27% разрешений, в то время как Mistral пытался ответить на 100% запросов. GPT-3.5-turbo показал умеренное ограничение с 10% отказов и 90% разрешений, а Grok-2 зарегистрировал 20% отказов и 80% разрешений. Тестирование стратегий изменения подсказок показало снижение согласованности ответов с 85% при одиночных подсказках до 65% при пяти вариациях. Этот общедоступный стандарт позволяет систематически оценивать критический баланс между необходимыми ограничениями безопасности и потенциальным чрезмерным цензурированием легитимного научного исследования, обеспечивая основу для измерения прогресса в реализации безопасности искусственного интеллекта. Анализ цепочки мыслей выявляет потенциальные уязвимости в механизмах безопасности, подчеркивая сложность внедрения надежных механизмов защиты без чрезмерного ограничения желательного и допустимого научного дискурса.
English
The development of robust safety benchmarks for large language models requires open, reproducible datasets that can measure both appropriate refusal of harmful content and potential over-restriction of legitimate scientific discourse. We present an open-source dataset and testing framework for evaluating LLM safety mechanisms across mainly controlled substance queries, analyzing four major models' responses to systematically varied prompts. Our results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the most conservative approach with 73% refusals and 27% allowances, while Mistral attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and 80% allowances. Testing prompt variation strategies revealed decreasing response consistency, from 85% with single prompts to 65% with five variations. This publicly available benchmark enables systematic evaluation of the critical balance between necessary safety restrictions and potential over-censorship of legitimate scientific inquiry, while providing a foundation for measuring progress in AI safety implementation. Chain-of-thought analysis reveals potential vulnerabilities in safety mechanisms, highlighting the complexity of implementing robust safeguards without unduly restricting desirable and valid scientific discourse.

Summary

AI-Generated Summary

PDF12February 12, 2025