ChatPaper.aiChatPaper

Correção de Curso: Alinhamento de Segurança Usando Preferências Sintéticas

Course-Correction: Safety Alignment Using Synthetic Preferences

July 23, 2024
Autores: Rongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu
cs.AI

Resumo

O risco de conteúdo prejudicial gerado por grandes modelos de linguagem (LLMs) torna-se uma preocupação crítica. Este artigo apresenta um estudo sistemático sobre a avaliação e melhoria da capacidade dos LLMs de realizar a tarefa de correção de curso, ou seja, o modelo pode se afastar da geração de conteúdo prejudicial autonomamente. Para começar, introduzimos o benchmark C^2-Eval para avaliação quantitativa e analisamos 10 LLMs populares, revelando proficiências variadas dos atuais LLMs ajustados para segurança na correção de curso. Para melhorar, propomos ajustar finamente os LLMs com aprendizado de preferência, enfatizando a preferência pela correção de curso oportuna. Usando um pipeline automatizado, criamos o C^2-Syn, um conjunto de dados sintéticos com 750 mil preferências em pares, para ensinar aos modelos o conceito de correção de curso oportuna por meio de aprendizado de preferência orientado por dados. Experimentos com 2 LLMs, Llama2-Chat 7B e Qwen2 7B, mostram que nosso método aprimora efetivamente as habilidades de correção de curso sem afetar o desempenho geral. Além disso, melhora efetivamente a segurança dos LLMs, especialmente na resistência a ataques de jailbreak.
English
The risk of harmful content generated by large language models (LLMs) becomes a critical concern. This paper presents a systematic study on assessing and improving LLMs' capability to perform the task of course-correction, \ie, the model can steer away from generating harmful content autonomously. To start with, we introduce the C^2-Eval benchmark for quantitative assessment and analyze 10 popular LLMs, revealing varying proficiency of current safety-tuned LLMs in course-correction. To improve, we propose fine-tuning LLMs with preference learning, emphasizing the preference for timely course-correction. Using an automated pipeline, we create C^2-Syn, a synthetic dataset with 750K pairwise preferences, to teach models the concept of timely course-correction through data-driven preference learning. Experiments on 2 LLMs, Llama2-Chat 7B and Qwen2 7B, show that our method effectively enhances course-correction skills without affecting general performance. Additionally, it effectively improves LLMs' safety, particularly in resisting jailbreak attacks.

Summary

AI-Generated Summary

PDF272November 28, 2024