La escalada talla una sabiduría más profunda que la cima: sobre las recompensas ruidosas en el aprendizaje del razonamiento
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
May 28, 2025
Autores: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI
Resumen
Estudios recientes sobre el entrenamiento posterior de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para el razonamiento mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) suelen centrarse en tareas que pueden verificarse y recompensarse con precisión, como la resolución de problemas matemáticos. En contraste, nuestra investigación examina el impacto del ruido en las recompensas, una consideración más práctica para escenarios del mundo real que involucran el entrenamiento posterior de LLMs utilizando modelos de recompensa. Descubrimos que los LLMs muestran una fuerte robustez ante un ruido sustancial en las recompensas. Por ejemplo, invertir manualmente el 40% de las salidas de la función de recompensa en tareas matemáticas aún permite que un modelo Qwen-2.5-7B logre una convergencia rápida, mejorando su rendimiento en tareas matemáticas del 5% al 72%, en comparación con el 75% de precisión alcanzado por un modelo entrenado con recompensas libres de ruido. Sorprendentemente, al recompensar únicamente la aparición de frases clave de razonamiento (denominadas recompensa por patrón de razonamiento, RPR), como «primero, necesito», sin verificar la corrección de las respuestas, el modelo alcanzó un rendimiento máximo en tareas posteriores (más del 70% de precisión para Qwen-2.5-7B) comparable al de modelos entrenados con verificación estricta de corrección y recompensas precisas. Reconociendo la importancia del proceso de razonamiento sobre los resultados finales, combinamos RPR con modelos de recompensa ruidosos. RPR ayudó a calibrar los modelos de recompensa ruidosos, mitigando posibles falsos negativos y mejorando el rendimiento del LLM en tareas de respuesta abierta. Estos hallazgos sugieren la importancia de mejorar las habilidades fundamentales de los modelos durante la fase de preentrenamiento, al tiempo que ofrecen ideas para avanzar en las técnicas de entrenamiento posterior. Nuestro código y scripts están disponibles en https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
English
Recent studies on post-training large language models (LLMs) for reasoning
through reinforcement learning (RL) typically focus on tasks that can be
accurately verified and rewarded, such as solving math problems. In contrast,
our research investigates the impact of reward noise, a more practical
consideration for real-world scenarios involving the post-training of LLMs
using reward models. We found that LLMs demonstrate strong robustness to
substantial reward noise. For example, manually flipping 40% of the reward
function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve
rapid convergence, improving its performance on math tasks from 5% to 72%,
compared to the 75% accuracy achieved by a model trained with noiseless
rewards. Surprisingly, by only rewarding the appearance of key reasoning
phrases (namely reasoning pattern reward, RPR), such as ``first, I need
to''-without verifying the correctness of answers, the model achieved peak
downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models
trained with strict correctness verification and accurate rewards. Recognizing
the importance of the reasoning process over the final results, we combined RPR
with noisy reward models. RPR helped calibrate the noisy reward models,
mitigating potential false negatives and enhancing the LLM's performance on
open-ended tasks. These findings suggest the importance of improving models'
foundational abilities during the pre-training phase while providing insights
for advancing post-training techniques. Our code and scripts are available at
https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.Summary
AI-Generated Summary