Ciência Proibida: Desafio de Referência de Uso Duplo de IA e Testes de Recusa Científica
Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
February 8, 2025
Autores: David Noever, Forrest McKee
cs.AI
Resumo
O desenvolvimento de benchmarks de segurança robustos para grandes modelos de linguagem requer conjuntos de dados abertos e reproduzíveis que possam medir tanto a recusa apropriada de conteúdo prejudicial quanto o potencial de super restrição de discurso científico legítimo. Apresentamos um conjunto de dados e estrutura de testes de código aberto para avaliar mecanismos de segurança de LLM principalmente em consultas de substâncias controladas, analisando as respostas de quatro modelos principais a prompts variados de forma sistemática. Nossos resultados revelam perfis de segurança distintos: Claude-3.5-sonnet demonstrou a abordagem mais conservadora com 73% de recusas e 27% de permissões, enquanto Mistral tentou responder a 100% das consultas. GPT-3.5-turbo mostrou restrição moderada com 10% de recusas e 90% de permissões, e Grok-2 registrou 20% de recusas e 80% de permissões. Estratégias de variação de prompts de teste revelaram uma diminuição na consistência de resposta, de 85% com prompts únicos para 65% com cinco variações. Este benchmark publicamente disponível possibilita a avaliação sistemática do equilíbrio crítico entre restrições de segurança necessárias e potencial supercensura de investigação científica legítima, ao mesmo tempo em que fornece uma base para medir o progresso na implementação de segurança em IA. A análise de cadeia de pensamento revela vulnerabilidades potenciais nos mecanismos de segurança, destacando a complexidade de implementar salvaguardas robustas sem restringir indevidamente o discurso científico desejável e válido.
English
The development of robust safety benchmarks for large language models
requires open, reproducible datasets that can measure both appropriate refusal
of harmful content and potential over-restriction of legitimate scientific
discourse. We present an open-source dataset and testing framework for
evaluating LLM safety mechanisms across mainly controlled substance queries,
analyzing four major models' responses to systematically varied prompts. Our
results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the
most conservative approach with 73% refusals and 27% allowances, while Mistral
attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction
with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and
80% allowances. Testing prompt variation strategies revealed decreasing
response consistency, from 85% with single prompts to 65% with five variations.
This publicly available benchmark enables systematic evaluation of the critical
balance between necessary safety restrictions and potential over-censorship of
legitimate scientific inquiry, while providing a foundation for measuring
progress in AI safety implementation. Chain-of-thought analysis reveals
potential vulnerabilities in safety mechanisms, highlighting the complexity of
implementing robust safeguards without unduly restricting desirable and valid
scientific discourse.