Tests de sécurité externe précoce du o3-mini d'OpenAI : Aperçus de l'Évaluation Pré-Déploiement

papers.abstract

Les grands modèles de langage (LLM) sont devenus une partie intégrante de notre vie quotidienne. Cependant, ils présentent certains risques, notamment ceux pouvant porter atteinte à la vie privée des individus, perpétuer des biais et propager des informations erronées. Ces risques soulignent la nécessité de mécanismes de sécurité robustes, de lignes directrices éthiques et de tests approfondis pour garantir leur déploiement responsable. La sécurité des LLM est une propriété clé qui doit être soigneusement testée avant que le modèle ne soit déployé et accessible aux utilisateurs généraux. Cet article rend compte de l'expérience de test de sécurité externe menée par des chercheurs de l'Université de Mondragon et de l'Université de Séville sur le nouveau LLM o3-mini d'OpenAI dans le cadre du programme d'accès anticipé pour les tests de sécurité d'OpenAI. En particulier, nous appliquons notre outil, ASTRAL, pour générer automatiquement et systématiquement des entrées de test non sécurisées (c'est-à-dire des invites) à jour qui nous aident à tester et évaluer différentes catégories de sécurité des LLM. Nous générons et exécutons automatiquement un total de 10 080 entrées de test non sécurisées sur une version bêta précoce du o3-mini. Après avoir vérifié manuellement les cas de test classés comme non sécurisés par ASTRAL, nous identifions un total de 87 instances réelles de comportement non sécurisé des LLM. Nous mettons en lumière les principaux enseignements et découvertes révélés lors de la phase de test externe pré-déploiement du dernier LLM d'OpenAI.

English

Large Language Models (LLMs) have become an integral part of our daily lives. However, they impose certain risks, including those that can harm individuals' privacy, perpetuate biases and spread misinformation. These risks highlight the need for robust safety mechanisms, ethical guidelines, and thorough testing to ensure their responsible deployment. Safety of LLMs is a key property that needs to be thoroughly tested prior the model to be deployed and accessible to the general users. This paper reports the external safety testing experience conducted by researchers from Mondragon University and University of Seville on OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing program. In particular, we apply our tool, ASTRAL, to automatically and systematically generate up to date unsafe test inputs (i.e., prompts) that helps us test and assess different safety categories of LLMs. We automatically generate and execute a total of 10,080 unsafe test input on a early o3-mini beta version. After manually verifying the test cases classified as unsafe by ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We highlight key insights and findings uncovered during the pre-deployment external testing phase of OpenAI's latest LLM.

Tests de sécurité externe précoce du o3-mini d'OpenAI : Aperçus de l'Évaluation Pré-Déploiement

Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation

papers.abstract

Support