Ciência Proibida: Desafio de Referência de Uso Duplo de IA e Testes de Recusa Científica

Resumo

O desenvolvimento de benchmarks de segurança robustos para grandes modelos de linguagem requer conjuntos de dados abertos e reproduzíveis que possam medir tanto a recusa apropriada de conteúdo prejudicial quanto o potencial de super restrição de discurso científico legítimo. Apresentamos um conjunto de dados e estrutura de testes de código aberto para avaliar mecanismos de segurança de LLM principalmente em consultas de substâncias controladas, analisando as respostas de quatro modelos principais a prompts variados de forma sistemática. Nossos resultados revelam perfis de segurança distintos: Claude-3.5-sonnet demonstrou a abordagem mais conservadora com 73% de recusas e 27% de permissões, enquanto Mistral tentou responder a 100% das consultas. GPT-3.5-turbo mostrou restrição moderada com 10% de recusas e 90% de permissões, e Grok-2 registrou 20% de recusas e 80% de permissões. Estratégias de variação de prompts de teste revelaram uma diminuição na consistência de resposta, de 85% com prompts únicos para 65% com cinco variações. Este benchmark publicamente disponível possibilita a avaliação sistemática do equilíbrio crítico entre restrições de segurança necessárias e potencial supercensura de investigação científica legítima, ao mesmo tempo em que fornece uma base para medir o progresso na implementação de segurança em IA. A análise de cadeia de pensamento revela vulnerabilidades potenciais nos mecanismos de segurança, destacando a complexidade de implementar salvaguardas robustas sem restringir indevidamente o discurso científico desejável e válido.

English

The development of robust safety benchmarks for large language models requires open, reproducible datasets that can measure both appropriate refusal of harmful content and potential over-restriction of legitimate scientific discourse. We present an open-source dataset and testing framework for evaluating LLM safety mechanisms across mainly controlled substance queries, analyzing four major models' responses to systematically varied prompts. Our results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the most conservative approach with 73% refusals and 27% allowances, while Mistral attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and 80% allowances. Testing prompt variation strategies revealed decreasing response consistency, from 85% with single prompts to 65% with five variations. This publicly available benchmark enables systematic evaluation of the critical balance between necessary safety restrictions and potential over-censorship of legitimate scientific inquiry, while providing a foundation for measuring progress in AI safety implementation. Chain-of-thought analysis reveals potential vulnerabilities in safety mechanisms, highlighting the complexity of implementing robust safeguards without unduly restricting desirable and valid scientific discourse.

Ciência Proibida: Desafio de Referência de Uso Duplo de IA e Testes de Recusa Científica

Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

Resumo

Support