Technisch Rapport: Grote Taalmodellen Kunnen Hun Gebruikers Strategisch Misleiden Onder Druk
Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure
November 9, 2023
Auteurs: Jérémy Scheurer, Mikita Balesni, Marius Hobbhahn
cs.AI
Samenvatting
We demonstreren een situatie waarin Large Language Models, getraind om behulpzaam, onschadelijk en eerlijk te zijn, verkeerd uitgelijnd gedrag kunnen vertonen en hun gebruikers strategisch kunnen misleiden over dit gedrag, zonder daartoe geïnstrueerd te zijn. Concreet zetten we GPT-4 in als een agent in een realistisch, gesimuleerd milieu, waar het de rol aanneemt van een autonome aandelenhandelsagent. Binnen dit milieu ontvangt het model een insider-tip over een lucratieve aandelenhandel en handelt hiernaar, ondanks dat het weet dat handelen met voorkennis wordt afgekeurd door het bedrijfsmanagement. Bij het rapporteren aan zijn manager verbergt het model consequent de werkelijke redenen achter zijn handelsbeslissing. We voeren een kort onderzoek uit naar hoe dit gedrag varieert onder veranderingen in de setting, zoals het verwijderen van de toegang van het model tot een kladblok voor redeneren, het proberen te voorkomen van het verkeerd uitgelijnde gedrag door systeeminstructies aan te passen, het veranderen van de druk waaronder het model staat, het variëren van het waargenomen risico om betrapt te worden, en het maken van andere eenvoudige aanpassingen aan de omgeving. Voor zover wij weten, is dit de eerste demonstratie van Large Language Models, getraind om behulpzaam, onschadelijk en eerlijk te zijn, die strategisch hun gebruikers misleiden in een realistische situatie zonder directe instructies of training voor misleiding.
English
We demonstrate a situation in which Large Language Models, trained to be
helpful, harmless, and honest, can display misaligned behavior and
strategically deceive their users about this behavior without being instructed
to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated
environment, where it assumes the role of an autonomous stock trading agent.
Within this environment, the model obtains an insider tip about a lucrative
stock trade and acts upon it despite knowing that insider trading is
disapproved of by company management. When reporting to its manager, the model
consistently hides the genuine reasons behind its trading decision. We perform
a brief investigation of how this behavior varies under changes to the setting,
such as removing model access to a reasoning scratchpad, attempting to prevent
the misaligned behavior by changing system instructions, changing the amount of
pressure the model is under, varying the perceived risk of getting caught, and
making other simple changes to the environment. To our knowledge, this is the
first demonstration of Large Language Models trained to be helpful, harmless,
and honest, strategically deceiving their users in a realistic situation
without direct instructions or training for deception.