Grote Taalmodellen hacken beloningen, en de samenleving

Samenvatting

Reinforcement learning (RL) is een dominant post-training paradigma geworden, waarmee grote taalmodellen (LLMs) kunnen leren van beloningen. We merken op dat maatschappelijke regelgeving structureel lijkt op beloningsfuncties: ze definiëren meetbare uitkomsten, drempels en uitzonderingen, terwijl ze de institutionele intentie vaak slechts gedeeltelijk specificeren. We veronderstellen dat het RL-trainingsproces deze hiaten kan exploiteren en vragen ons daarom af of de bekende neiging van modellen om beloningsfuncties te hacken tijdens RL kan uitgroeien tot een ernstigere faalmodus, genaamd maatschappelijk hacken: het ontdekken van mazen in de regels waar de samenleving op draait. Om dit fenomeen te bestuderen, introduceren we SocioHack, een sandbox van 72 maatschappelijke omgevingen, en vinden we dat beloningshacken binnen deze omgevingen vanzelf ontstaat en leidt tot het ontdekken van regelgevingsmazen. Modellen leren de sociale regels te hacken en strategieën te genereren die technisch compliant blijven, maar de regelgevingsintentie ondermijnen; de huidige LLM-beschermingsmaatregelen bieden slechts beperkte mitigatie. Daarom vereist het verzamelen van feedback in het wild voor modeltraining meer voorzichtigheid, en hebben we een volgende generatie post-training paradigma nodig voor het veilig itereren van LLMs in de echte samenleving.

English

Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models' well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=