Phi-3 Veiligheidstraining na Implementatie: Het Afstemmen van Taalmodellen met een "Break-Fix" Cyclus
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle
July 18, 2024
Auteurs: Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler
cs.AI
Samenvatting
Recente innovaties in het trainen van taalmodellen hebben aangetoond dat het mogelijk is om zeer presterende modellen te creëren die klein genoeg zijn om op een smartphone te draaien. Naarmate deze modellen in een groeiend aantal domeinen worden ingezet, is het van cruciaal belang ervoor te zorgen dat ze afgestemd zijn op menselijke voorkeuren en veiligheidsaspecten. In dit rapport presenteren we onze methodologie voor het veilig afstemmen van de Phi-3-serie taalmodellen. We hebben een "break-fix"-cyclus gebruikt, waarbij we meerdere rondes van datasetcuratie, veiligheidsna-training, benchmarking, red teaming en kwetsbaarheidsidentificatie hebben uitgevoerd om een verscheidenheid aan schadegebieden in zowel enkelvoudige als meervoudige scenario's te dekken. Onze resultaten geven aan dat deze aanpak iteratief de prestaties van de Phi-3-modellen heeft verbeterd over een breed scala aan verantwoorde AI-benchmarks.
English
Recent innovations in language model training have demonstrated that it is
possible to create highly performant models that are small enough to run on a
smartphone. As these models are deployed in an increasing number of domains, it
is critical to ensure that they are aligned with human preferences and safety
considerations. In this report, we present our methodology for safety aligning
the Phi-3 series of language models. We utilized a "break-fix" cycle,
performing multiple rounds of dataset curation, safety post-training,
benchmarking, red teaming, and vulnerability identification to cover a variety
of harm areas in both single and multi-turn scenarios. Our results indicate
that this approach iteratively improved the performance of the Phi-3 models
across a wide range of responsible AI benchmarks.