Teste Antecipado de Segurança Externa do o3-mini da OpenAI: Insights da Avaliação Pré-Implantação
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
January 29, 2025
Autores: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se uma parte integral de nossas vidas diárias. No entanto, eles impõem certos riscos, incluindo aqueles que podem prejudicar a privacidade das pessoas, perpetuar preconceitos e disseminar desinformação. Esses riscos destacam a necessidade de mecanismos de segurança robustos, diretrizes éticas e testes minuciosos para garantir sua implantação responsável. A segurança dos LLMs é uma propriedade fundamental que precisa ser testada minuciosamente antes que o modelo seja implantado e acessível aos usuários em geral. Este artigo relata a experiência de teste de segurança externa realizada por pesquisadores da Universidade de Mondragon e da Universidade de Sevilha no novo LLM o3-mini da OpenAI, como parte do programa de acesso antecipado da OpenAI para testes de segurança. Em particular, aplicamos nossa ferramenta, ASTRAL, para gerar automaticamente e sistematicamente entradas de teste inseguras atualizadas (ou seja, prompts) que nos ajudam a testar e avaliar diferentes categorias de segurança dos LLMs. Geramos e executamos automaticamente um total de 10.080 entradas de teste inseguras em uma versão beta inicial do o3-mini. Após verificar manualmente os casos de teste classificados como inseguros pelo ASTRAL, identificamos um total de 87 instâncias reais de comportamento inseguro do LLM. Destacamos insights e descobertas-chave revelados durante a fase de teste externo pré-implementação do mais recente LLM da OpenAI.
English
Large Language Models (LLMs) have become an integral part of our daily lives.
However, they impose certain risks, including those that can harm individuals'
privacy, perpetuate biases and spread misinformation. These risks highlight the
need for robust safety mechanisms, ethical guidelines, and thorough testing to
ensure their responsible deployment. Safety of LLMs is a key property that
needs to be thoroughly tested prior the model to be deployed and accessible to
the general users. This paper reports the external safety testing experience
conducted by researchers from Mondragon University and University of Seville on
OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing
program. In particular, we apply our tool, ASTRAL, to automatically and
systematically generate up to date unsafe test inputs (i.e., prompts) that
helps us test and assess different safety categories of LLMs. We automatically
generate and execute a total of 10,080 unsafe test input on a early o3-mini
beta version. After manually verifying the test cases classified as unsafe by
ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We
highlight key insights and findings uncovered during the pre-deployment
external testing phase of OpenAI's latest LLM.Summary
AI-Generated Summary