ChatPaper.aiChatPaper

Phi-3 Sicurezza Post-Addestramento: Allineamento dei Modelli Linguistici con un Ciclo "Rottura-Riparazione"

Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

July 18, 2024
Autori: Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler
cs.AI

Abstract

Le recenti innovazioni nell'addestramento dei modelli linguistici hanno dimostrato che è possibile creare modelli altamente performanti e sufficientemente piccoli da poter essere eseguiti su uno smartphone. Man mano che questi modelli vengono implementati in un numero crescente di domini, è fondamentale garantire che siano allineati con le preferenze umane e le considerazioni di sicurezza. In questo rapporto, presentiamo la nostra metodologia per l'allineamento alla sicurezza della serie di modelli linguistici Phi-3. Abbiamo utilizzato un ciclo "rompi-ripara", eseguendo più iterazioni di curatela dei dataset, post-addestramento per la sicurezza, benchmarking, red teaming e identificazione delle vulnerabilità per coprire una varietà di aree di danno in scenari sia a turno singolo che multi-turno. I nostri risultati indicano che questo approccio ha migliorato in modo iterativo le prestazioni dei modelli Phi-3 su un'ampia gamma di benchmark di intelligenza artificiale responsabile.
English
Recent innovations in language model training have demonstrated that it is possible to create highly performant models that are small enough to run on a smartphone. As these models are deployed in an increasing number of domains, it is critical to ensure that they are aligned with human preferences and safety considerations. In this report, we present our methodology for safety aligning the Phi-3 series of language models. We utilized a "break-fix" cycle, performing multiple rounds of dataset curation, safety post-training, benchmarking, red teaming, and vulnerability identification to cover a variety of harm areas in both single and multi-turn scenarios. Our results indicate that this approach iteratively improved the performance of the Phi-3 models across a wide range of responsible AI benchmarks.
PDF122November 28, 2024