Cursuscorrectie: Veiligheidsafstemming met Synthetische Voorkeuren

Samenvatting

Het risico van schadelijke inhoud gegenereerd door grote taalmodellen (LLMs) wordt een kritieke zorg. Dit artikel presenteert een systematische studie over het beoordelen en verbeteren van de capaciteit van LLMs om de taak van koerscorrectie uit te voeren, \ie, het model kan autonoom wegsturen van het genereren van schadelijke inhoud. Om te beginnen introduceren we de C^2-Eval benchmark voor kwantitatieve beoordeling en analyseren we 10 populaire LLMs, wat verschillende niveaus van bekwaamheid van huidige veiligheidsafgestemde LLMs in koerscorrectie aan het licht brengt. Om te verbeteren, stellen we voor om LLMs te fine-tunen met voorkeursleren, waarbij de nadruk ligt op de voorkeur voor tijdige koerscorrectie. Met behulp van een geautomatiseerde pijplijn creëren we C^2-Syn, een synthetische dataset met 750K paarsgewijze voorkeuren, om modellen het concept van tijdige koerscorrectie aan te leren door middel van data-gedreven voorkeursleren. Experimenten op 2 LLMs, Llama2-Chat 7B en Qwen2 7B, tonen aan dat onze methode effectief de vaardigheden voor koerscorrectie verbetert zonder de algemene prestaties aan te tasten. Daarnaast verbetert het effectief de veiligheid van LLMs, met name in het weerstaan van jailbreak-aanvallen.

English

The risk of harmful content generated by large language models (LLMs) becomes a critical concern. This paper presents a systematic study on assessing and improving LLMs' capability to perform the task of course-correction, \ie, the model can steer away from generating harmful content autonomously. To start with, we introduce the C^2-Eval benchmark for quantitative assessment and analyze 10 popular LLMs, revealing varying proficiency of current safety-tuned LLMs in course-correction. To improve, we propose fine-tuning LLMs with preference learning, emphasizing the preference for timely course-correction. Using an automated pipeline, we create C^2-Syn, a synthetic dataset with 750K pairwise preferences, to teach models the concept of timely course-correction through data-driven preference learning. Experiments on 2 LLMs, Llama2-Chat 7B and Qwen2 7B, show that our method effectively enhances course-correction skills without affecting general performance. Additionally, it effectively improves LLMs' safety, particularly in resisting jailbreak attacks.

Cursuscorrectie: Veiligheidsafstemming met Synthetische Voorkeuren

Course-Correction: Safety Alignment Using Synthetic Preferences

Samenvatting

Support