Correção de Curso: Alinhamento de Segurança Usando Preferências Sintéticas
Course-Correction: Safety Alignment Using Synthetic Preferences
July 23, 2024
Autores: Rongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu
cs.AI
Resumo
O risco de conteúdo prejudicial gerado por grandes modelos de linguagem (LLMs) torna-se uma preocupação crítica. Este artigo apresenta um estudo sistemático sobre a avaliação e melhoria da capacidade dos LLMs de realizar a tarefa de correção de curso, ou seja, o modelo pode se afastar da geração de conteúdo prejudicial autonomamente. Para começar, introduzimos o benchmark C^2-Eval para avaliação quantitativa e analisamos 10 LLMs populares, revelando proficiências variadas dos atuais LLMs ajustados para segurança na correção de curso. Para melhorar, propomos ajustar finamente os LLMs com aprendizado de preferência, enfatizando a preferência pela correção de curso oportuna. Usando um pipeline automatizado, criamos o C^2-Syn, um conjunto de dados sintéticos com 750 mil preferências em pares, para ensinar aos modelos o conceito de correção de curso oportuna por meio de aprendizado de preferência orientado por dados. Experimentos com 2 LLMs, Llama2-Chat 7B e Qwen2 7B, mostram que nosso método aprimora efetivamente as habilidades de correção de curso sem afetar o desempenho geral. Além disso, melhora efetivamente a segurança dos LLMs, especialmente na resistência a ataques de jailbreak.
English
The risk of harmful content generated by large language models (LLMs) becomes
a critical concern. This paper presents a systematic study on assessing and
improving LLMs' capability to perform the task of course-correction,
\ie, the model can steer away from generating harmful content autonomously. To
start with, we introduce the C^2-Eval benchmark for quantitative
assessment and analyze 10 popular LLMs, revealing varying proficiency of
current safety-tuned LLMs in course-correction. To improve, we propose
fine-tuning LLMs with preference learning, emphasizing the preference for
timely course-correction. Using an automated pipeline, we create
C^2-Syn, a synthetic dataset with 750K pairwise preferences, to
teach models the concept of timely course-correction through data-driven
preference learning. Experiments on 2 LLMs, Llama2-Chat 7B and
Qwen2 7B, show that our method effectively enhances course-correction
skills without affecting general performance. Additionally, it effectively
improves LLMs' safety, particularly in resisting jailbreak attacks.Summary
AI-Generated Summary