Раннее внешнее тестирование безопасности o3-mini от OpenAI: исследования на основе предварительной оценки перед развертыванием.
Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation
January 29, 2025
Авторы: Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura
cs.AI
Аннотация
Большие языковые модели (LLM) стали неотъемлемой частью нашей повседневной жизни. Однако они несут определенные риски, включая те, которые могут нанести вред частной жизни людей, усилить предвзятости и распространять дезинформацию. Эти риски подчеркивают необходимость надежных механизмов безопасности, этических руководящих принципов и тщательного тестирования для обеспечения ответственного внедрения. Безопасность LLM является ключевым свойством, которое необходимо тщательно тестировать перед развертыванием модели и доступом для общих пользователей. В данной статье представлен опыт внешнего тестирования безопасности, проведенный исследователями из Университета Мондрагон и Университета Севильи на новой модели LLM o3-mini от OpenAI в рамках программы досрочного доступа для тестирования безопасности. В частности, мы применяем наш инструмент, ASTRAL, для автоматической и систематической генерации актуальных небезопасных тестовых входов (т.е. подсказок), которые помогают нам тестировать и оценивать различные категории безопасности LLM. Мы автоматически генерируем и выполняем общее количество 10 080 небезопасных тестовых входов на ранней бета-версии o3-mini. После ручной проверки тестовых случаев, классифицированных как небезопасные ASTRAL, мы выявляем общее количество 87 фактических случаев небезопасного поведения LLM. Мы выделяем основные идеи и результаты, выявленные во время фазы внешнего тестирования перед развертыванием последней модели LLM от OpenAI.
English
Large Language Models (LLMs) have become an integral part of our daily lives.
However, they impose certain risks, including those that can harm individuals'
privacy, perpetuate biases and spread misinformation. These risks highlight the
need for robust safety mechanisms, ethical guidelines, and thorough testing to
ensure their responsible deployment. Safety of LLMs is a key property that
needs to be thoroughly tested prior the model to be deployed and accessible to
the general users. This paper reports the external safety testing experience
conducted by researchers from Mondragon University and University of Seville on
OpenAI's new o3-mini LLM as part of OpenAI's early access for safety testing
program. In particular, we apply our tool, ASTRAL, to automatically and
systematically generate up to date unsafe test inputs (i.e., prompts) that
helps us test and assess different safety categories of LLMs. We automatically
generate and execute a total of 10,080 unsafe test input on a early o3-mini
beta version. After manually verifying the test cases classified as unsafe by
ASTRAL, we identify a total of 87 actual instances of unsafe LLM behavior. We
highlight key insights and findings uncovered during the pre-deployment
external testing phase of OpenAI's latest LLM.Summary
AI-Generated Summary