Seguridad post-entrenamiento de Phi-3: Alineando modelos de lenguaje con un ciclo "reparar y corregir".
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle
July 18, 2024
Autores: Emman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler
cs.AI
Resumen
Las recientes innovaciones en el entrenamiento de modelos de lenguaje han demostrado que es posible crear modelos altamente eficientes que son lo suficientemente pequeños para ejecutarse en un teléfono inteligente. A medida que estos modelos se despliegan en un número creciente de dominios, es fundamental asegurar que estén alineados con las preferencias humanas y consideraciones de seguridad. En este informe, presentamos nuestra metodología para alinear la seguridad de la serie de modelos de lenguaje Phi-3. Utilizamos un ciclo de "detectar y corregir", realizando múltiples rondas de curación de conjuntos de datos, seguridad post-entrenamiento, evaluación comparativa, equipo de evaluación y identificación de vulnerabilidades para abarcar una variedad de áreas de daño tanto en escenarios de turno único como múltiples. Nuestros resultados indican que este enfoque mejoró de forma iterativa el rendimiento de los modelos Phi-3 en una amplia gama de pruebas de inteligencia artificial responsable.
English
Recent innovations in language model training have demonstrated that it is
possible to create highly performant models that are small enough to run on a
smartphone. As these models are deployed in an increasing number of domains, it
is critical to ensure that they are aligned with human preferences and safety
considerations. In this report, we present our methodology for safety aligning
the Phi-3 series of language models. We utilized a "break-fix" cycle,
performing multiple rounds of dataset curation, safety post-training,
benchmarking, red teaming, and vulnerability identification to cover a variety
of harm areas in both single and multi-turn scenarios. Our results indicate
that this approach iteratively improved the performance of the Phi-3 models
across a wide range of responsible AI benchmarks.