Cursuscorrectie: Veiligheidsafstemming met Synthetische Voorkeuren
Course-Correction: Safety Alignment Using Synthetic Preferences
July 23, 2024
Auteurs: Rongwu Xu, Yishuo Cai, Zhenhong Zhou, Renjie Gu, Haiqin Weng, Yan Liu, Tianwei Zhang, Wei Xu, Han Qiu
cs.AI
Samenvatting
Het risico van schadelijke inhoud gegenereerd door grote taalmodellen (LLMs) wordt een kritieke zorg. Dit artikel presenteert een systematische studie over het beoordelen en verbeteren van de capaciteit van LLMs om de taak van koerscorrectie uit te voeren, \ie, het model kan autonoom wegsturen van het genereren van schadelijke inhoud. Om te beginnen introduceren we de C^2-Eval benchmark voor kwantitatieve beoordeling en analyseren we 10 populaire LLMs, wat verschillende niveaus van bekwaamheid van huidige veiligheidsafgestemde LLMs in koerscorrectie aan het licht brengt. Om te verbeteren, stellen we voor om LLMs te fine-tunen met voorkeursleren, waarbij de nadruk ligt op de voorkeur voor tijdige koerscorrectie. Met behulp van een geautomatiseerde pijplijn creëren we C^2-Syn, een synthetische dataset met 750K paarsgewijze voorkeuren, om modellen het concept van tijdige koerscorrectie aan te leren door middel van data-gedreven voorkeursleren. Experimenten op 2 LLMs, Llama2-Chat 7B en Qwen2 7B, tonen aan dat onze methode effectief de vaardigheden voor koerscorrectie verbetert zonder de algemene prestaties aan te tasten. Daarnaast verbetert het effectief de veiligheid van LLMs, met name in het weerstaan van jailbreak-aanvallen.
English
The risk of harmful content generated by large language models (LLMs) becomes
a critical concern. This paper presents a systematic study on assessing and
improving LLMs' capability to perform the task of course-correction,
\ie, the model can steer away from generating harmful content autonomously. To
start with, we introduce the C^2-Eval benchmark for quantitative
assessment and analyze 10 popular LLMs, revealing varying proficiency of
current safety-tuned LLMs in course-correction. To improve, we propose
fine-tuning LLMs with preference learning, emphasizing the preference for
timely course-correction. Using an automated pipeline, we create
C^2-Syn, a synthetic dataset with 750K pairwise preferences, to
teach models the concept of timely course-correction through data-driven
preference learning. Experiments on 2 LLMs, Llama2-Chat 7B and
Qwen2 7B, show that our method effectively enhances course-correction
skills without affecting general performance. Additionally, it effectively
improves LLMs' safety, particularly in resisting jailbreak attacks.