Phi-3 安全性のポストトレーニング:「ブレイク・フィックス」サイクルによる言語モデルのアラインメント
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle
July 18, 2024
著者: Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler
cs.AI
要旨
最近の言語モデルトレーニングにおける革新により、スマートフォン上で動作可能なほど小型でありながら高い性能を発揮するモデルの作成が可能となった。これらのモデルがますます多くの領域で展開される中、人間の好みや安全性の考慮事項に沿ったものであることを保証することが極めて重要である。本報告書では、Phi-3シリーズの言語モデルを安全性に沿って調整するための方法論を提示する。我々は「ブレイク・フィックス」サイクルを活用し、データセットのキュレーション、安全性のポストトレーニング、ベンチマーキング、レッドチーミング、脆弱性の特定を複数回繰り返すことで、単一ターンおよび複数ターンのシナリオにおける様々な有害領域をカバーした。その結果、このアプローチにより、Phi-3モデルの性能が責任あるAIベンチマークの広範な範囲で反復的に向上したことが示された。
English
Recent innovations in language model training have demonstrated that it is
possible to create highly performant models that are small enough to run on a
smartphone. As these models are deployed in an increasing number of domains, it
is critical to ensure that they are aligned with human preferences and safety
considerations. In this report, we present our methodology for safety aligning
the Phi-3 series of language models. We utilized a "break-fix" cycle,
performing multiple rounds of dataset curation, safety post-training,
benchmarking, red teaming, and vulnerability identification to cover a variety
of harm areas in both single and multi-turn scenarios. Our results indicate
that this approach iteratively improved the performance of the Phi-3 models
across a wide range of responsible AI benchmarks.Summary
AI-Generated Summary