Направленное согласование смягчает взлом вознаграждения в обучении с подкреплением для языковых моделей

Аннотация

Взлом награды возникает, когда модель улучшает прокси-награду за счет использования кратких путей, а не решения поставленной задачи. Мы изучаем этот режим отказа через геометрию обновлений алгоритма обучения с подкреплением в языковых моделях и утверждаем, что взлом награды происходит, когда оптимизация отклоняется от стабильной низкоразмерной траектории обучения. Этот дрейф анализируется через доминирующие сингулярные направления обновлений параметров, и мы показываем, что в сценариях с взломом награды наблюдается существенно большее направленное изменение, чем в чистых прогонах. Руководствуясь этим наблюдением, мы вводим проекцию доверенного направления, которая ограничивает градиенты, удерживая их в пределах чистого опорного подпространства. В экспериментах по взлому награды на задачах математического рассуждения предложенный подход задерживает эксплуатацию кратких путей и лучше сохраняет производительность задачи.

English

Reward hacking arises when a model improves a proxy reward by exploiting shortcuts rather than solving the intended task. We study this failure mode through the geometry of reinforcement learning updates in language models and argue that hacking emerges when optimization drifts away from a stable low-dimensional learning trajectory. We analyze this drift through dominant singular directions of parameter updates and show that reward-hacking runs exhibit substantially larger directional change than clean runs. Motivated by this observation, we introduce trusted-direction projection, which constrains gradients to remain within a clean reference subspace. Across reward-hacking experiments on mathematical reasoning, the proposed approach delays shortcut exploitation and better preserves task performance.