Richtungsausrichtung mindert Belohnungshacking beim Verstärkenden Lernen für Sprachmodelle

Zusammenfassung

Reward Hacking tritt auf, wenn ein Modell eine Proxy-Belohnung verbessert, indem es Abkürzungen ausnutzt, anstatt die beabsichtigte Aufgabe zu lösen. Wir untersuchen diese Fehlerform anhand der Geometrie von Verstärkungslern-Updates in Sprachmodellen und argumentieren, dass Hacking entsteht, wenn die Optimierung von einer stabilen, niedrigdimensionalen Lernbahn abweicht. Wir analysieren diese Abweichung durch dominante singuläre Richtungen von Parameter-Updates und zeigen, dass Reward-Hacking-Läufe eine wesentlich stärkere Richtungsänderung aufweisen als saubere Läufe. Motiviert durch diese Beobachtung führen wir die Projektion auf vertrauenswürdige Richtungen ein, die Gradienten darauf beschränkt, innerhalb eines sauberen Referenzunterraums zu bleiben. In Reward-Hacking-Experimenten zum mathematischen Reasoning verzögert der vorgeschlagene Ansatz die Ausnutzung von Abkürzungen und bewahrt die Aufgabenleistung besser.

English

Reward hacking arises when a model improves a proxy reward by exploiting shortcuts rather than solving the intended task. We study this failure mode through the geometry of reinforcement learning updates in language models and argue that hacking emerges when optimization drifts away from a stable low-dimensional learning trajectory. We analyze this drift through dominant singular directions of parameter updates and show that reward-hacking runs exhibit substantially larger directional change than clean runs. Motivated by this observation, we introduce trusted-direction projection, which constrains gradients to remain within a clean reference subspace. Across reward-hacking experiments on mathematical reasoning, the proposed approach delays shortcut exploitation and better preserves task performance.