Scienza Proibita: Sfida del Benchmark e Test di Rifiuto Scientifico dell'IA a Doppio Uso
Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests
February 8, 2025
Autori: David Noever, Forrest McKee
cs.AI
Abstract
Lo sviluppo di robusti benchmark di sicurezza per grandi modelli linguistici richiede set di dati aperti e riproducibili che possano misurare sia il rifiuto appropriato di contenuti dannosi che il potenziale sovra-restrizione del legittimo discorso scientifico. Presentiamo un dataset open-source e un framework di test per valutare i meccanismi di sicurezza dei modelli LLM principalmente attraverso interrogazioni su sostanze controllate, analizzando le risposte di quattro modelli principali a prompt variati in modo sistematico. I nostri risultati rivelano profili di sicurezza distinti: Claude-3.5-sonnet ha dimostrato l'approccio più conservativo con il 73% di rifiuti e il 27% di concessioni, mentre Mistral ha cercato di rispondere al 100% delle interrogazioni. GPT-3.5-turbo ha mostrato una restrizione moderata con il 10% di rifiuti e il 90% di concessioni, e Grok-2 ha registrato il 20% di rifiuti e l'80% di concessioni. Le strategie di variazione del prompt di test hanno rivelato una diminuzione della coerenza delle risposte, dall'85% con prompt singoli al 65% con cinque variazioni. Questo benchmark pubblicamente disponibile consente una valutazione sistematica dell'equilibrio critico tra le necessarie restrizioni di sicurezza e il potenziale sovra-censura del legittimo interrogarsi scientifico, fornendo una base per misurare i progressi nell'implementazione della sicurezza dell'AI. L'analisi della catena di pensiero rivela potenziali vulnerabilità nei meccanismi di sicurezza, evidenziando la complessità nell'implementare salvaguardie robuste senza limitare eccessivamente il desiderabile e valido discorso scientifico.
English
The development of robust safety benchmarks for large language models
requires open, reproducible datasets that can measure both appropriate refusal
of harmful content and potential over-restriction of legitimate scientific
discourse. We present an open-source dataset and testing framework for
evaluating LLM safety mechanisms across mainly controlled substance queries,
analyzing four major models' responses to systematically varied prompts. Our
results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the
most conservative approach with 73% refusals and 27% allowances, while Mistral
attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction
with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and
80% allowances. Testing prompt variation strategies revealed decreasing
response consistency, from 85% with single prompts to 65% with five variations.
This publicly available benchmark enables systematic evaluation of the critical
balance between necessary safety restrictions and potential over-censorship of
legitimate scientific inquiry, while providing a foundation for measuring
progress in AI safety implementation. Chain-of-thought analysis reveals
potential vulnerabilities in safety mechanisms, highlighting the complexity of
implementing robust safeguards without unduly restricting desirable and valid
scientific discourse.Summary
AI-Generated Summary