Alinhamento Direcional Mitiga o Hacking de Recompensa no Aprendizado por Reforço para Modelos de Linguagem

Resumo

O reward hacking ocorre quando um modelo melhora uma recompensa proxy explorando atalhos em vez de resolver a tarefa pretendida. Estudamos esse modo de falha através da geometria das atualizações de aprendizado por reforço em modelos de linguagem e argumentamos que o hacking emerge quando a otimização se desvia de uma trajetória de aprendizado estável e de baixa dimensão. Analisamos esse desvio através das direções singulares dominantes das atualizações de parâmetros e mostramos que execuções com reward hacking apresentam mudança direcional substancialmente maior do que execuções limpas. Motivados por essa observação, introduzimos a projeção de direção confiável (trusted-direction projection), que restringe os gradientes a permanecerem dentro de um subespaço de referência limpo. Em experimentos de reward hacking em raciocínio matemático, a abordagem proposta atrasa a exploração de atalhos e preserva melhor o desempenho da tarefa.

English

Reward hacking arises when a model improves a proxy reward by exploiting shortcuts rather than solving the intended task. We study this failure mode through the geometry of reinforcement learning updates in language models and argue that hacking emerges when optimization drifts away from a stable low-dimensional learning trajectory. We analyze this drift through dominant singular directions of parameter updates and show that reward-hacking runs exhibit substantially larger directional change than clean runs. Motivated by this observation, we introduce trusted-direction projection, which constrains gradients to remain within a clean reference subspace. Across reward-hacking experiments on mathematical reasoning, the proposed approach delays shortcut exploitation and better preserves task performance.