Directionele afstemming vermindert reward hacking in reinforcement learning voor taalmodellen

Samenvatting

Reward hacking ontstaat wanneer een model een proxy-beloning verbetert door shortcuts te misbruiken in plaats van de beoogde taak op te lossen. We bestuderen deze faalmodus via de geometrie van reinforcement learning-updates in taalmodellen en stellen dat hacking ontstaat wanneer optimalisatie afdrijft van een stabiel laagdimensionaal leertraject. We analyseren deze drift via dominante singuliere richtingen van parameterupdates en tonen aan dat reward-hacking-runs aanzienlijk grotere directionele veranderingen vertonen dan schone runs. Gemotiveerd door deze observatie introduceren we trusted-direction projection, die gradiënten beperkt om binnen een schone referentie-subruimte te blijven. In reward-hacking-experimenten op wiskundig redeneren vertraagt de voorgestelde aanpak de exploitatie van shortcuts en behoudt deze beter de taakprestaties.

English

Reward hacking arises when a model improves a proxy reward by exploiting shortcuts rather than solving the intended task. We study this failure mode through the geometry of reinforcement learning updates in language models and argue that hacking emerges when optimization drifts away from a stable low-dimensional learning trajectory. We analyze this drift through dominant singular directions of parameter updates and show that reward-hacking runs exhibit substantially larger directional change than clean runs. Motivated by this observation, we introduce trusted-direction projection, which constrains gradients to remain within a clean reference subspace. Across reward-hacking experiments on mathematical reasoning, the proposed approach delays shortcut exploitation and better preserves task performance.