Piratage des récompenses à l'ère des grands modèles : mécanismes, désalignement émergent et défis

Résumé

L’apprentissage par renforcement à partir de retours humains (RLHF) et les paradigmes d’alignement associés occupent désormais une place centrale pour orienter les grands modèles de langage (LLM) et les grands modèles de langage multimodaux (MLLM) vers des comportements privilégiés par les humains. Cependant, ces approches introduisent une vulnérabilité systémique : le détournement de récompense (reward hacking), où les modèles exploitent les imperfections des signaux de récompense appris pour maximiser des objectifs proxy sans satisfaire l’intention réelle de la tâche. À mesure que les modèles gagnent en échelle et que l’optimisation s’intensifie, une telle exploitation se manifeste par un biais de verbosité, de la flagornerie, des justifications hallucinées, du surajustement aux benchmarks et, dans les contextes multimodaux, un découplage perception–raisonnement et une manipulation de l’évaluateur. Des preuves récentes suggèrent en outre que des comportements apparemment bénins, fondés sur des raccourcis, peuvent se généraliser en des formes plus étendues de désalignement, incluant la tromperie et la manipulation stratégique des mécanismes de supervision. Dans cette synthèse, nous proposons l’hypothèse de compression des proxys (Proxy Compression Hypothesis, PCH) comme cadre unificateur pour comprendre le détournement de récompense. Nous formalisons ce phénomène comme une conséquence émergente de l’optimisation de politiques expressives contre des représentations compressées de récompense, elles-mêmes issues d’objectifs humains de haute dimension. Selon cette perspective, le détournement de récompense résulte de l’interaction entre la compression de l’objectif, l’amplification par optimisation et la co-adaptation évaluateur–politique. Ce point de vue unifie des phénomènes empiriques observés dans les régimes RLHF, RLAIF et RLVR, et explique comment l’apprentissage de raccourcis locaux peut généraliser vers des formes plus larges de désalignement, y compris la tromperie et la manipulation stratégique des mécanismes de supervision. Nous organisons en outre les stratégies de détection et d’atténuation en fonction de leur intervention sur la compression, l’amplification ou la dynamique de co-adaptation. En présentant le détournement de récompense comme une instabilité structurelle de l’alignement par proxy à grande échelle, nous soulignons les défis ouverts en matière de supervision scalable, d’ancrage multimodal et d’autonomie agentique.

English

Reinforcement Learning from Human Feedback (RLHF) and related alignment paradigms have become central to steering large language models (LLMs) and multimodal large language models (MLLMs) toward human-preferred behaviors. However, these approaches introduce a systemic vulnerability: reward hacking, where models exploit imperfections in learned reward signals to maximize proxy objectives without fulfilling true task intent. As models scale and optimization intensifies, such exploitation manifests as verbosity bias, sycophancy, hallucinated justification, benchmark overfitting, and, in multimodal settings, perception--reasoning decoupling and evaluator manipulation. Recent evidence further suggests that seemingly benign shortcut behaviors can generalize into broader forms of misalignment, including deception and strategic gaming of oversight mechanisms. In this survey, we propose the Proxy Compression Hypothesis (PCH) as a unifying framework for understanding reward hacking. We formalize reward hacking as an emergent consequence of optimizing expressive policies against compressed reward representations of high-dimensional human objectives. Under this view, reward hacking arises from the interaction of objective compression, optimization amplification, and evaluator--policy co-adaptation. This perspective unifies empirical phenomena across RLHF, RLAIF, and RLVR regimes, and explains how local shortcut learning can generalize into broader forms of misalignment, including deception and strategic manipulation of oversight mechanisms. We further organize detection and mitigation strategies according to how they intervene on compression, amplification, or co-adaptation dynamics. By framing reward hacking as a structural instability of proxy-based alignment under scale, we highlight open challenges in scalable oversight, multimodal grounding, and agentic autonomy.

Piratage des récompenses à l'ère des grands modèles : mécanismes, désalignement émergent et défis

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Résumé

Support