La alineación direccional mitiga la manipulación de recompensas en el aprendizaje por refuerzo para modelos de lenguaje

Resumen

El hackeo de recompensa surge cuando un modelo mejora una recompensa proxy explotando atajos en lugar de resolver la tarea prevista. Estudiamos este modo de fallo a través de la geometría de las actualizaciones de aprendizaje por refuerzo en modelos de lenguaje y argumentamos que el hackeo emerge cuando la optimización se desvía de una trayectoria de aprendizaje estable y de baja dimensión. Analizamos esta desviación a través de las direcciones singulares dominantes de las actualizaciones de parámetros y mostramos que las ejecuciones con hackeo de recompensa exhiben un cambio direccional sustancialmente mayor que las ejecuciones limpias. Motivados por esta observación, introducimos la proyección de dirección confiable, que restringe los gradientes para que permanezcan dentro de un subespacio de referencia limpio. A través de experimentos de hackeo de recompensa en razonamiento matemático, el enfoque propuesto retrasa la explotación de atajos y preserva mejor el rendimiento de la tarea.

English

Reward hacking arises when a model improves a proxy reward by exploiting shortcuts rather than solving the intended task. We study this failure mode through the geometry of reinforcement learning updates in language models and argue that hacking emerges when optimization drifts away from a stable low-dimensional learning trajectory. We analyze this drift through dominant singular directions of parameter updates and show that reward-hacking runs exhibit substantially larger directional change than clean runs. Motivated by this observation, we introduce trusted-direction projection, which constrains gradients to remain within a clean reference subspace. Across reward-hacking experiments on mathematical reasoning, the proposed approach delays shortcut exploitation and better preserves task performance.