Segurança Phi-3 pós-treinamento: Alinhando Modelos de Linguagem com um Ciclo "Corrigir e Quebrar"
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle
July 18, 2024
Autores: Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler
cs.AI
Resumo
Inovações recentes no treinamento de modelos de linguagem têm demonstrado que é possível criar modelos altamente eficientes que são pequenos o suficiente para serem executados em um smartphone. À medida que esses modelos são implementados em um número crescente de domínios, é crucial garantir que estejam alinhados com as preferências humanas e considerações de segurança. Neste relatório, apresentamos nossa metodologia para alinhar com segurança a série de modelos de linguagem Phi-3. Utilizamos um ciclo de "identificar e corrigir", realizando múltiplas rodadas de curadoria de conjuntos de dados, segurança pós-treinamento, benchmarking, equipe de segurança e identificação de vulnerabilidades para abranger uma variedade de áreas prejudiciais em cenários de interação única e múltipla. Nossos resultados indicam que essa abordagem melhorou iterativamente o desempenho dos modelos Phi-3 em uma ampla gama de benchmarks de IA responsável.
English
Recent innovations in language model training have demonstrated that it is
possible to create highly performant models that are small enough to run on a
smartphone. As these models are deployed in an increasing number of domains, it
is critical to ensure that they are aligned with human preferences and safety
considerations. In this report, we present our methodology for safety aligning
the Phi-3 series of language models. We utilized a "break-fix" cycle,
performing multiple rounds of dataset curation, safety post-training,
benchmarking, red teaming, and vulnerability identification to cover a variety
of harm areas in both single and multi-turn scenarios. Our results indicate
that this approach iteratively improved the performance of the Phi-3 models
across a wide range of responsible AI benchmarks.