ChatPaper.aiChatPaper

A escalada esculpe a sabedoria mais profundamente do que o cume: sobre as recompensas ruidosas no aprendizado do raciocínio.

The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

May 28, 2025
Autores: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI

Resumo

Estudos recentes sobre o pós-treinamento de grandes modelos de linguagem (LLMs) para raciocínio por meio de aprendizado por reforço (RL) geralmente se concentram em tarefas que podem ser verificadas e recompensadas com precisão, como a resolução de problemas matemáticos. Em contraste, nossa pesquisa investiga o impacto do ruído nas recompensas, uma consideração mais prática para cenários do mundo real que envolvem o pós-treinamento de LLMs usando modelos de recompensa. Descobrimos que os LLMs demonstram uma forte robustez a ruídos substanciais nas recompensas. Por exemplo, inverter manualmente 40% das saídas da função de recompensa em tarefas matemáticas ainda permite que um modelo Qwen-2.5-7B alcance convergência rápida, melhorando seu desempenho em tarefas matemáticas de 5% para 72%, em comparação com a precisão de 75% alcançada por um modelo treinado com recompensas sem ruído. Surpreendentemente, ao recompensar apenas a aparição de frases-chave de raciocínio (ou seja, recompensa por padrão de raciocínio, RPR), como "primeiro, eu preciso" — sem verificar a correção das respostas — o modelo alcançou o pico de desempenho downstream (mais de 70% de precisão para o Qwen-2.5-7B), comparável a modelos treinados com verificação estrita de correção e recompensas precisas. Reconhecendo a importância do processo de raciocínio sobre os resultados finais, combinamos o RPR com modelos de recompensa ruidosos. O RPR ajudou a calibrar os modelos de recompensa ruidosos, mitigando potenciais falsos negativos e melhorando o desempenho do LLM em tarefas de resposta aberta. Essas descobertas sugerem a importância de melhorar as habilidades fundamentais dos modelos durante a fase de pré-treinamento, ao mesmo tempo que fornecem insights para o avanço das técnicas de pós-treinamento. Nosso código e scripts estão disponíveis em https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
English
Recent studies on post-training large language models (LLMs) for reasoning through reinforcement learning (RL) typically focus on tasks that can be accurately verified and rewarded, such as solving math problems. In contrast, our research investigates the impact of reward noise, a more practical consideration for real-world scenarios involving the post-training of LLMs using reward models. We found that LLMs demonstrate strong robustness to substantial reward noise. For example, manually flipping 40% of the reward function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve rapid convergence, improving its performance on math tasks from 5% to 72%, compared to the 75% accuracy achieved by a model trained with noiseless rewards. Surprisingly, by only rewarding the appearance of key reasoning phrases (namely reasoning pattern reward, RPR), such as ``first, I need to''-without verifying the correctness of answers, the model achieved peak downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models trained with strict correctness verification and accurate rewards. Recognizing the importance of the reasoning process over the final results, we combined RPR with noisy reward models. RPR helped calibrate the noisy reward models, mitigating potential false negatives and enhancing the LLM's performance on open-ended tasks. These findings suggest the importance of improving models' foundational abilities during the pre-training phase while providing insights for advancing post-training techniques. Our code and scripts are available at https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
PDF662December 11, 2025