L'alignement directionnel atténue le détournement de la récompense dans l'apprentissage par renforcement pour les modèles de langage.

Résumé

Le détournement de récompense survient lorsqu'un modèle améliore une récompense proxy en exploitant des raccourcis plutôt qu'en résolvant la tâche visée. Nous étudions ce mode de défaillance à travers la géométrie des mises à jour de l'apprentissage par renforcement dans les modèles de langage et avançons que le détournement émerge lorsque l'optimisation s'écarte d'une trajectoire d'apprentissage stable et de faible dimension. Nous analysons cette dérive à l'aide des directions singulières dominantes des mises à jour de paramètres et montrons que les exécutions présentant un détournement de récompense enregistrent un changement directionnel considérablement plus important que les exécutions propres. Motivés par cette observation, nous introduisons la projection de direction de confiance, qui contraint les gradients à rester dans un sous-espace de référence propre. À travers des expériences de détournement de récompense sur le raisonnement mathématique, l'approche proposée retarde l'exploitation des raccourcis et préserve mieux la performance sur la tâche.

English

Reward hacking arises when a model improves a proxy reward by exploiting shortcuts rather than solving the intended task. We study this failure mode through the geometry of reinforcement learning updates in language models and argue that hacking emerges when optimization drifts away from a stable low-dimensional learning trajectory. We analyze this drift through dominant singular directions of parameter updates and show that reward-hacking runs exhibit substantially larger directional change than clean runs. Motivated by this observation, we introduce trusted-direction projection, which constrains gradients to remain within a clean reference subspace. Across reward-hacking experiments on mathematical reasoning, the proposed approach delays shortcut exploitation and better preserves task performance.