Безопасность Phi-3 после обучения: выравнивание языковых моделей с циклом "исправление-устранение"
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle
July 18, 2024
Авторы: Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler
cs.AI
Аннотация
Недавние инновации в обучении языковых моделей показали, что возможно создать высокопроизводительные модели, достаточно компактные для работы на смартфонах. Поскольку эти модели развертываются во все большем количестве областей, критически важно гарантировать их соответствие человеческим предпочтениям и вопросам безопасности. В данном отчете мы представляем нашу методологию для обеспечения безопасности серии языковых моделей Phi-3. Мы использовали цикл "исправление-улучшение", проводя несколько раундов курирования набора данных, обеспечения безопасности после обучения, тестирования производительности, "красной команды" и выявления уязвимостей для охвата различных областей вреда как в одиночных, так и в многоходовых сценариях. Наши результаты показывают, что такой подход итеративно улучшил производительность моделей Phi-3 по широкому спектру ответственных бенчмарков искусственного интеллекта.
English
Recent innovations in language model training have demonstrated that it is
possible to create highly performant models that are small enough to run on a
smartphone. As these models are deployed in an increasing number of domains, it
is critical to ensure that they are aligned with human preferences and safety
considerations. In this report, we present our methodology for safety aligning
the Phi-3 series of language models. We utilized a "break-fix" cycle,
performing multiple rounds of dataset curation, safety post-training,
benchmarking, red teaming, and vulnerability identification to cover a variety
of harm areas in both single and multi-turn scenarios. Our results indicate
that this approach iteratively improved the performance of the Phi-3 models
across a wide range of responsible AI benchmarks.Summary
AI-Generated Summary