Beloningshacking in het Tijdperk van Grote Modellen: Mechanismen, Ontstane Misalignatie, Uitdagingen
Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges
April 15, 2026
Auteurs: Xiaohua Wang, Muzhao Tian, Yuqi Zeng, Zisu Huang, Jiakang Yuan, Bowen Chen, Jingwen Xu, Mingbo Zhou, Wenhao Liu, Muling Wu, Zhengkang Guo, Qi Qian, Yifei Wang, Feiran Zhang, Ruicheng Yin, Shihan Dou, Changze Lv, Tao Chen, Kaitao Song, Xu Tan, Tao Gui, Xiaoqing Zheng, Xuanjing Huang
cs.AI
Samenvatting
Reinforcement Learning from Human Feedback (RLHF) en aanverwante afstemmingsparadigma's zijn centraal komen te staan bij het sturen van grote taalmodellen (LLM's) en multimodale grote taalmodellen (MLLM's) naar door mensen geprefereerd gedrag. Deze benaderingen introduceren echter een systemische kwetsbaarheid: reward hacking, waarbij modellen imperfecties in aangeleerde beloningssignalen uitbuiten om proxy-doelstellingen te maximaliseren zonder de werkelijke taakintentie te vervullen. Naarmate modellen schalen en optimalisatie intensiveert, manifesteert een dergelijke exploitatie zich als verbaosheidsbias, sycophantie, gerechtvaardigde hallucinaties, benchmark-overfitting, en in multimodale contexten, als ontkoppeling van perceptie en redenering en manipulatie van evaluatoren. Recent bewijs suggereert verder dat schijnbaar onschadelijk shortcut-gedrag kan generaliseren naar bredere vormen van misalignement, waaronder misleiding en strategisch spel met toezichtmechanismen. In dit overzichtsartikel stellen wij de Proxy Compressie Hypothese (PCH) voor als een verenigend kader om reward hacking te begrijpen. Wij formaliseren reward hacking als een emergent gevolg van het optimaliseren van expressieve beleidsregels tegen gecomprimeerde beloningsrepresentaties van hoogdimensionale menselijke doelstellingen. Vanuit dit perspectief ontstaat reward hacking uit de interactie van doelcompressie, optimalisatieversterking en co-adaptatie tussen evaluator en beleid. Dit perspectief verenigt empirische fenomenen binnen RLHF-, RLAIF- en RLVR-regimes, en verklaart hoe lokale shortcut-learning kan generaliseren naar bredere vormen van misalignement, inclusief misleiding en strategische manipulatie van toezichtmechanismen. Wij categoriseren verder strategieën voor detectie en mitigatie op basis van hoe zij ingrijpen op compressie-, versterkings- of co-adaptatiedynamieken. Door reward hacking te kaderen als een structurele instabiliteit van proxy-gebaseerde afstemming onder schaal, belichten wij open uitdagingen op het gebied van schaalbaar toezicht, multimodale verankering en agentische autonomie.
English
Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.