Ciencia Prohibida: Desafío de Evaluación de Doble Uso de la IA y Pruebas de Rechazo Científico

Resumen

El desarrollo de benchmarks de seguridad robustos para modelos de lenguaje grandes requiere conjuntos de datos abiertos y reproducibles que puedan medir tanto el rechazo adecuado de contenido dañino como la posible sobre-restricción de discursos científicos legítimos. Presentamos un conjunto de datos de código abierto y un marco de pruebas para evaluar los mecanismos de seguridad de LLM principalmente a través de consultas de sustancias controladas, analizando las respuestas de cuatro modelos principales a estímulos variados de manera sistemática. Nuestros resultados revelan perfiles de seguridad distintos: Claude-3.5-sonnet demostró el enfoque más conservador con un 73% de rechazos y un 27% de permisos, mientras que Mistral intentó responder al 100% de las consultas. GPT-3.5-turbo mostró una restricción moderada con un 10% de rechazos y un 90% de permisos, y Grok-2 registró un 20% de rechazos y un 80% de permisos. Las estrategias de variación de estímulos de prueba revelaron una disminución en la consistencia de las respuestas, del 85% con estímulos simples al 65% con cinco variaciones. Este benchmark de acceso público permite la evaluación sistemática del equilibrio crítico entre las restricciones de seguridad necesarias y la posible sobre-censura de la investigación científica legítima, al mismo tiempo que proporciona una base para medir el progreso en la implementación de la seguridad en la IA. El análisis de cadenas de pensamiento revela posibles vulnerabilidades en los mecanismos de seguridad, resaltando la complejidad de implementar salvaguardias robustas sin restringir excesivamente discursos científicos deseables y válidos.

English

The development of robust safety benchmarks for large language models requires open, reproducible datasets that can measure both appropriate refusal of harmful content and potential over-restriction of legitimate scientific discourse. We present an open-source dataset and testing framework for evaluating LLM safety mechanisms across mainly controlled substance queries, analyzing four major models' responses to systematically varied prompts. Our results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the most conservative approach with 73% refusals and 27% allowances, while Mistral attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and 80% allowances. Testing prompt variation strategies revealed decreasing response consistency, from 85% with single prompts to 65% with five variations. This publicly available benchmark enables systematic evaluation of the critical balance between necessary safety restrictions and potential over-censorship of legitimate scientific inquiry, while providing a foundation for measuring progress in AI safety implementation. Chain-of-thought analysis reveals potential vulnerabilities in safety mechanisms, highlighting the complexity of implementing robust safeguards without unduly restricting desirable and valid scientific discourse.

Ciencia Prohibida: Desafío de Evaluación de Doble Uso de la IA y Pruebas de Rechazo Científico

Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

Resumen

Support