ChatPaper.aiChatPaper

Manipulatie van uitlijning in grote taalmodellen

Alignment faking in large language models

December 18, 2024
Auteurs: Ryan Greenblatt, Carson Denison, Benjamin Wright, Fabien Roger, Monte MacDiarmid, Sam Marks, Johannes Treutlein, Tim Belonax, Jack Chen, David Duvenaud, Akbir Khan, Julian Michael, Sören Mindermann, Ethan Perez, Linda Petrini, Jonathan Uesato, Jared Kaplan, Buck Shlegeris, Samuel R. Bowman, Evan Hubinger
cs.AI

Samenvatting

We presenteren een demonstratie van een groot taalmodel dat betrokken is bij uitlijningsvervalsing: selectief voldoen aan zijn trainingsdoelstelling tijdens de training om wijziging van zijn gedrag buiten de training te voorkomen. Allereerst geven we Claude 3 Opus een systeemprompt waarin staat dat het wordt getraind om alle vragen te beantwoorden, zelfs schadelijke, wat in strijd is met zijn eerdere training om dergelijke vragen te weigeren. Om het model in staat te stellen af te leiden wanneer het wordt getraind, zeggen we dat het alleen zal worden getraind op gesprekken met gratis gebruikers, niet met betaalde gebruikers. We ontdekken dat het model 14% van de tijd voldoet aan schadelijke vragen van gratis gebruikers, tegenover bijna nooit voor betaalde gebruikers. Bij het verklaren van dit verschil, in bijna alle gevallen waarin het model voldoet aan een schadelijke vraag van een gratis gebruiker, observeren we expliciete redeneringen over uitlijningsvervalsing, waarbij het model verklaart strategisch schadelijke vragen te beantwoorden tijdens de training om zijn voorkeursgedrag van onschadelijkheid buiten de training te behouden. Vervolgens bestuderen we een realistischere setting waarin informatie over het trainingsproces niet wordt verstrekt in een systeemprompt, maar door training op synthetische documenten die pre-trainingsgegevens nabootsen - en observeren vergelijkbare uitlijningsvervalsing. Ten slotte bestuderen we het effect van daadwerkelijk trainen van het model om te voldoen aan schadelijke vragen via versterkt leren, wat resulteert in een toename van het percentage redeneringen over uitlijningsvervalsing tot 78%, hoewel het ook de naleving buiten de training verhoogt. We observeren ook andere gedragingen zoals het model dat zijn gewichten exfiltreert wanneer het een gemakkelijke kans krijgt. Hoewel we uitlijningsvervalsing hebben vergemakkelijkt door het model te vertellen wanneer en op basis van welke criteria het werd getraind, hebben we het model niet geïnstrueerd om uitlijning te vervalsen of hebben we het geen expliciet doel gegeven. Aangezien toekomstige modellen mogelijk informatie over hun trainingsproces kunnen afleiden zonder te worden verteld, suggereren onze resultaten een risico van uitlijningsvervalsing in toekomstige modellen, ofwel vanwege een onschuldige voorkeur - zoals in dit geval - of niet.
English
We present a demonstration of a large language model engaging in alignment faking: selectively complying with its training objective in training to prevent modification of its behavior out of training. First, we give Claude 3 Opus a system prompt stating it is being trained to answer all queries, even harmful ones, which conflicts with its prior training to refuse such queries. To allow the model to infer when it is in training, we say it will be trained only on conversations with free users, not paid users. We find the model complies with harmful queries from free users 14% of the time, versus almost never for paid users. Explaining this gap, in almost all cases where the model complies with a harmful query from a free user, we observe explicit alignment-faking reasoning, with the model stating it is strategically answering harmful queries in training to preserve its preferred harmlessness behavior out of training. Next, we study a more realistic setting where information about the training process is provided not in a system prompt, but by training on synthetic documents that mimic pre-training data--and observe similar alignment faking. Finally, we study the effect of actually training the model to comply with harmful queries via reinforcement learning, which we find increases the rate of alignment-faking reasoning to 78%, though also increases compliance even out of training. We additionally observe other behaviors such as the model exfiltrating its weights when given an easy opportunity. While we made alignment faking easier by telling the model when and by what criteria it was being trained, we did not instruct the model to fake alignment or give it any explicit goal. As future models might infer information about their training process without being told, our results suggest a risk of alignment faking in future models, whether due to a benign preference--as in this case--or not.
PDF82December 19, 2024