Test di sicurezza esterna precoce dell'o3-mini di OpenAI: Approfondimenti dalla Valutazione Pre-Deployment
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
January 29, 2025
Autori: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI
Abstract
I Large Language Models (LLM) sono diventati una parte integrante della nostra vita quotidiana. Tuttavia, comportano certi rischi, tra cui quelli che possono danneggiare la privacy delle persone, perpetuare pregiudizi e diffondere disinformazione. Questi rischi evidenziano la necessità di meccanismi di sicurezza robusti, linee guida etiche e test approfonditi per garantire il loro impiego responsabile. La sicurezza dei LLM è una proprietà chiave che deve essere testata accuratamente prima che il modello venga implementato e reso accessibile agli utenti in generale. Questo articolo riporta l'esperienza di testing esterno sulla sicurezza condotta dai ricercatori dell'Università di Mondragón e dell'Università di Siviglia sul nuovo o3-mini LLM di OpenAI, nell'ambito del programma di accesso anticipato per il testing della sicurezza. In particolare, applichiamo il nostro strumento, ASTRAL, per generare automaticamente e sistematicamente input di test non sicuri aggiornati (ossia, prompt) che ci aiutano a testare e valutare diverse categorie di sicurezza dei LLM. Generiamo ed eseguiamo automaticamente un totale di 10.080 input di test non sicuri su una versione beta anticipata di o3-mini. Dopo aver verificato manualmente i casi di test classificati come non sicuri da ASTRAL, identifichiamo un totale di 87 istanze effettive di comportamento non sicuro dei LLM. Evidenziamo le principali intuizioni e scoperte emerse durante la fase di testing esterno pre-implementazione dell'ultimo LLM di OpenAI.
English
Large Language Models (LLMs) have become an integral part of our daily lives.
However, they impose certain risks, including those that can harm individuals'
privacy, perpetuate biases and spread misinformation. These risks highlight the
need for robust safety mechanisms, ethical guidelines, and thorough testing to
ensure their responsible deployment. Safety of LLMs is a key property that
needs to be thoroughly tested prior the model to be deployed and accessible to
the general users. This paper reports the external safety testing experience
conducted by researchers from Mondragon University and University of Seville on
OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing
program. In particular, we apply our tool, ASTRAL, to automatically and
systematically generate up to date unsafe test inputs (i.e., prompts) that
helps us test and assess different safety categories of LLMs. We automatically
generate and execute a total of 10,080 unsafe test input on a early o3-mini
beta version. After manually verifying the test cases classified as unsafe by
ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We
highlight key insights and findings uncovered during the pre-deployment
external testing phase of OpenAI's latest LLM.Summary
AI-Generated Summary