Tests de sécurité externe précoce du o3-mini d'OpenAI : Aperçus de l'Évaluation Pré-Déploiement
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
January 29, 2025
Auteurs: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI
Résumé
Les grands modèles de langage (LLM) sont devenus une partie intégrante de notre vie quotidienne. Cependant, ils présentent certains risques, notamment ceux pouvant porter atteinte à la vie privée des individus, perpétuer des biais et propager des informations erronées. Ces risques soulignent la nécessité de mécanismes de sécurité robustes, de lignes directrices éthiques et de tests approfondis pour garantir leur déploiement responsable. La sécurité des LLM est une propriété clé qui doit être soigneusement testée avant que le modèle ne soit déployé et accessible aux utilisateurs généraux. Cet article rend compte de l'expérience de test de sécurité externe menée par des chercheurs de l'Université de Mondragon et de l'Université de Séville sur le nouveau LLM o3-mini d'OpenAI dans le cadre du programme d'accès anticipé pour les tests de sécurité d'OpenAI. En particulier, nous appliquons notre outil, ASTRAL, pour générer automatiquement et systématiquement des entrées de test non sécurisées (c'est-à-dire des invites) à jour qui nous aident à tester et évaluer différentes catégories de sécurité des LLM. Nous générons et exécutons automatiquement un total de 10 080 entrées de test non sécurisées sur une version bêta précoce du o3-mini. Après avoir vérifié manuellement les cas de test classés comme non sécurisés par ASTRAL, nous identifions un total de 87 instances réelles de comportement non sécurisé des LLM. Nous mettons en lumière les principaux enseignements et découvertes révélés lors de la phase de test externe pré-déploiement du dernier LLM d'OpenAI.
English
Large Language Models (LLMs) have become an integral part of our daily lives.
However, they impose certain risks, including those that can harm individuals'
privacy, perpetuate biases and spread misinformation. These risks highlight the
need for robust safety mechanisms, ethical guidelines, and thorough testing to
ensure their responsible deployment. Safety of LLMs is a key property that
needs to be thoroughly tested prior the model to be deployed and accessible to
the general users. This paper reports the external safety testing experience
conducted by researchers from Mondragon University and University of Seville on
OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing
program. In particular, we apply our tool, ASTRAL, to automatically and
systematically generate up to date unsafe test inputs (i.e., prompts) that
helps us test and assess different safety categories of LLMs. We automatically
generate and execute a total of 10,080 unsafe test input on a early o3-mini
beta version. After manually verifying the test cases classified as unsafe by
ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We
highlight key insights and findings uncovered during the pre-deployment
external testing phase of OpenAI's latest LLM.Summary
AI-Generated Summary