Pruebas tempranas de seguridad externa del o3-mini de OpenAI: Perspectivas de la Evaluación Pre-Implementación
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
January 29, 2025
Autores: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Tamaño (LLMs) se han convertido en una parte integral de nuestra vida diaria. Sin embargo, imponen ciertos riesgos, incluidos aquellos que pueden dañar la privacidad de las personas, perpetuar sesgos y difundir desinformación. Estos riesgos resaltan la necesidad de mecanismos de seguridad robustos, pautas éticas y pruebas exhaustivas para garantizar su implementación responsable. La seguridad de los LLMs es una propiedad clave que debe ser probada a fondo antes de que el modelo sea implementado y accesible para los usuarios en general. Este documento informa sobre la experiencia de pruebas de seguridad externas realizadas por investigadores de la Universidad de Mondragón y la Universidad de Sevilla en el nuevo LLM o3-mini de OpenAI como parte del programa de acceso anticipado para pruebas de seguridad de OpenAI. En particular, aplicamos nuestra herramienta, ASTRAL, para generar automáticamente y de manera sistemática entradas de prueba inseguras actualizadas (es decir, indicaciones) que nos ayudan a probar y evaluar diferentes categorías de seguridad de los LLMs. Generamos y ejecutamos automáticamente un total de 10,080 entradas de prueba inseguras en una versión beta temprana del o3-mini. Después de verificar manualmente los casos de prueba clasificados como inseguros por ASTRAL, identificamos un total de 87 instancias reales de comportamiento inseguro de LLM. Destacamos ideas clave y hallazgos descubiertos durante la fase de pruebas externas previas a la implementación del último LLM de OpenAI.
English
Large Language Models (LLMs) have become an integral part of our daily lives.
However, they impose certain risks, including those that can harm individuals'
privacy, perpetuate biases and spread misinformation. These risks highlight the
need for robust safety mechanisms, ethical guidelines, and thorough testing to
ensure their responsible deployment. Safety of LLMs is a key property that
needs to be thoroughly tested prior the model to be deployed and accessible to
the general users. This paper reports the external safety testing experience
conducted by researchers from Mondragon University and University of Seville on
OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing
program. In particular, we apply our tool, ASTRAL, to automatically and
systematically generate up to date unsafe test inputs (i.e., prompts) that
helps us test and assess different safety categories of LLMs. We automatically
generate and execute a total of 10,080 unsafe test input on a early o3-mini
beta version. After manually verifying the test cases classified as unsafe by
ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We
highlight key insights and findings uncovered during the pre-deployment
external testing phase of OpenAI's latest LLM.Summary
AI-Generated Summary