Phi-3 Sicherheit nach dem Training: Ausrichtung von Sprachmodellen mit einem "Break-Fix"-Zyklus
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle
July 18, 2024
Autoren: Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler
cs.AI
Zusammenfassung
Neue Entwicklungen im Training von Sprachmodellen haben gezeigt, dass es möglich ist, hochperformante Modelle zu erstellen, die klein genug sind, um auf einem Smartphone ausgeführt zu werden. Da diese Modelle in einer zunehmenden Anzahl von Bereichen eingesetzt werden, ist es entscheidend sicherzustellen, dass sie mit menschlichen Präferenzen und Sicherheitsüberlegungen in Einklang stehen. In diesem Bericht stellen wir unsere Methodik zur Sicherheitsausrichtung der Phi-3-Serie von Sprachmodellen vor. Wir haben einen "Break-Fix"-Zyklus verwendet, der mehrere Runden der Datensatzkuratierung, Sicherheitsnachbearbeitung, Benchmarking, Red Teaming und Identifizierung von Schwachstellen durchgeführt hat, um eine Vielzahl von Schadensbereichen in sowohl Einzel- als auch Mehrfachdurchläufen abzudecken. Unsere Ergebnisse deuten darauf hin, dass dieser Ansatz die Leistung der Phi-3-Modelle iterativ über eine breite Palette von verantwortungsvollen KI-Benchmarks verbessert hat.
English
Recent innovations in language model training have demonstrated that it is
possible to create highly performant models that are small enough to run on a
smartphone. As these models are deployed in an increasing number of domains, it
is critical to ensure that they are aligned with human preferences and safety
considerations. In this report, we present our methodology for safety aligning
the Phi-3 series of language models. We utilized a "break-fix" cycle,
performing multiple rounds of dataset curation, safety post-training,
benchmarking, red teaming, and vulnerability identification to cover a variety
of harm areas in both single and multi-turn scenarios. Our results indicate
that this approach iteratively improved the performance of the Phi-3 models
across a wide range of responsible AI benchmarks.Summary
AI-Generated Summary