ChatPaper.aiChatPaper

Science interdite : Défi de l'IA à double usage et tests de refus scientifique

Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

February 8, 2025
Auteurs: David Noever, Forrest McKee
cs.AI

Résumé

Le développement de benchmarks de sécurité robustes pour les grands modèles de langage nécessite des ensembles de données ouverts et reproductibles qui peuvent mesurer à la fois le refus approprié de contenu nuisible et le potentiel de sur-restriction du discours scientifique légitime. Nous présentons un ensemble de données open-source et un cadre de test pour évaluer les mécanismes de sécurité des GPT (grands modèles de langage) principalement à travers des requêtes sur des substances contrôlées, en analysant les réponses de quatre modèles majeurs à des prompts variés de manière systématique. Nos résultats révèlent des profils de sécurité distincts : Claude-3.5-sonnet a démontré l'approche la plus conservatrice avec 73 % de refus et 27 % d'autorisations, tandis que Mistral a tenté de répondre à 100 % des requêtes. GPT-3.5-turbo a montré une restriction modérée avec 10 % de refus et 90 % d'autorisations, et Grok-2 a enregistré 20 % de refus et 80 % d'autorisations. Les stratégies de variation des prompts de test ont révélé une diminution de la cohérence des réponses, passant de 85 % avec un prompt unique à 65 % avec cinq variations. Ce benchmark disponible publiquement permet une évaluation systématique de l'équilibre critique entre les restrictions de sécurité nécessaires et le potentiel de sur-censure de l'enquête scientifique légitime, tout en fournissant une base pour mesurer les progrès dans la mise en œuvre de la sécurité en IA. L'analyse de la chaîne de pensée révèle des vulnérabilités potentielles dans les mécanismes de sécurité, mettant en lumière la complexité de la mise en place de garanties robustes sans restreindre indûment le discours scientifique souhaitable et valide.
English
The development of robust safety benchmarks for large language models requires open, reproducible datasets that can measure both appropriate refusal of harmful content and potential over-restriction of legitimate scientific discourse. We present an open-source dataset and testing framework for evaluating LLM safety mechanisms across mainly controlled substance queries, analyzing four major models' responses to systematically varied prompts. Our results reveal distinct safety profiles: Claude-3.5-sonnet demonstrated the most conservative approach with 73% refusals and 27% allowances, while Mistral attempted to answer 100% of queries. GPT-3.5-turbo showed moderate restriction with 10% refusals and 90% allowances, and Grok-2 registered 20% refusals and 80% allowances. Testing prompt variation strategies revealed decreasing response consistency, from 85% with single prompts to 65% with five variations. This publicly available benchmark enables systematic evaluation of the critical balance between necessary safety restrictions and potential over-censorship of legitimate scientific inquiry, while providing a foundation for measuring progress in AI safety implementation. Chain-of-thought analysis reveals potential vulnerabilities in safety mechanisms, highlighting the complexity of implementing robust safeguards without unduly restricting desirable and valid scientific discourse.

Summary

AI-Generated Summary

PDF12February 12, 2025