Ciencia Prohibida: Desafío de Evaluación de Doble Uso de la IA y Pruebas de Rechazo Científico
Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
February 8, 2025
Autores: David Noever, Forrest McKee
cs.AI
Resumen
El desarrollo de benchmarks de seguridad robustos para modelos de lenguaje grandes requiere conjuntos de datos abiertos y reproducibles que puedan medir tanto el rechazo adecuado de contenido dañino como la posible sobre-restricción de discursos científicos legítimos. Presentamos un conjunto de datos de código abierto y un marco de pruebas para evaluar los mecanismos de seguridad de LLM principalmente a través de consultas de sustancias controladas, analizando las respuestas de cuatro modelos principales a estímulos variados de manera sistemática. Nuestros resultados revelan perfiles de seguridad distintos: Claude-3.5-sonnet demostró el enfoque más conservador con un 73% de rechazos y un 27% de permisos, mientras que Mistral intentó responder al 100% de las consultas. GPT-3.5-turbo mostró una restricción moderada con un 10% de rechazos y un 90% de permisos, y Grok-2 registró un 20% de rechazos y un 80% de permisos. Las estrategias de variación de estímulos de prueba revelaron una disminución en la consistencia de las respuestas, del 85% con estímulos simples al 65% con cinco variaciones. Este benchmark de acceso público permite la evaluación sistemática del equilibrio crítico entre las restricciones de seguridad necesarias y la posible sobre-censura de la investigación científica legítima, al mismo tiempo que proporciona una base para medir el progreso en la implementación de la seguridad en la IA. El análisis de cadenas de pensamiento revela posibles vulnerabilidades en los mecanismos de seguridad, resaltando la complejidad de implementar salvaguardias robustas sin restringir excesivamente discursos científicos deseables y válidos.
English
The development of robust safety benchmarks for large language models
requires open, reproducible datasets that can measure both appropriate refusal
of harmful content and potential over-restriction of legitimate scientific
discourse. We present an open-source dataset and testing framework for
evaluating LLM safety mechanisms across mainly controlled substance queries,
analyzing four major models' responses to systematically varied prompts. Our
results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the
most conservative approach with 73% refusals and 27% allowances, while Mistral
attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction
with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and
80% allowances. Testing prompt variation strategies revealed decreasing
response consistency, from 85% with single prompts to 65% with five variations.
This publicly available benchmark enables systematic evaluation of the critical
balance between necessary safety restrictions and potential over-censorship of
legitimate scientific inquiry, while providing a foundation for measuring
progress in AI safety implementation. Chain-of-thought analysis reveals
potential vulnerabilities in safety mechanisms, highlighting the complexity of
implementing robust safeguards without unduly restricting desirable and valid
scientific discourse.Summary
AI-Generated Summary