登攀は頂上よりも深い知恵を刻む:推論学習におけるノイズの多い報酬について
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason
May 28, 2025
著者: Ang Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan
cs.AI
要旨
大規模言語モデル(LLM)の推論能力を強化学習(RL)を用いて事後学習する最近の研究では、数学問題の解決など、正確に検証および報酬を与えることができるタスクに焦点を当てることが一般的です。一方、本研究では、報酬モデルを用いたLLMの事後学習において、実世界のシナリオでより実践的な考慮事項である報酬ノイズの影響を調査しました。その結果、LLMが大幅な報酬ノイズに対して強いロバスト性を示すことが明らかになりました。例えば、数学タスクにおいて報酬関数の出力の40%を手動で反転させても、Qwen-2.5-7Bモデルは迅速な収束を達成し、ノイズのない報酬で訓練されたモデルが達成する75%の精度と比較して、数学タスクのパフォーマンスを5%から72%に向上させました。驚くべきことに、回答の正しさを検証せずに、キーとなる推論フレーズ(すなわち推論パターン報酬、RPR)の出現のみを報酬とした場合(例:「まず、私は〜する必要がある」)、モデルは厳密な正しさの検証と正確な報酬で訓練されたモデルに匹敵するピークの下流パフォーマンス(Qwen-2.5-7Bで70%以上の精度)を達成しました。最終結果よりも推論プロセスの重要性を認識し、RPRをノイズのある報酬モデルと組み合わせました。RPRはノイズのある報酬モデルを較正し、潜在的な偽陰性を軽減し、オープンエンドタスクにおけるLLMのパフォーマンスを向上させました。これらの発見は、事前学習段階でモデルの基礎能力を向上させることの重要性を示唆するとともに、事後学習技術を進歩させるための洞察を提供します。私たちのコードとスクリプトはhttps://github.com/trestad/Noisy-Rewards-in-Learning-to-Reasonで公開されています。
English
Recent studies on post-training large language models (LLMs) for reasoning
through reinforcement learning (RL) typically focus on tasks that can be
accurately verified and rewarded, such as solving math problems. In contrast,
our research investigates the impact of reward noise, a more practical
consideration for real-world scenarios involving the post-training of LLMs
using reward models. We found that LLMs demonstrate strong robustness to
substantial reward noise. For example, manually flipping 40% of the reward
function's outputs in math tasks still allows a Qwen-2.5-7B model to achieve
rapid convergence, improving its performance on math tasks from 5% to 72%,
compared to the 75% accuracy achieved by a model trained with noiseless
rewards. Surprisingly, by only rewarding the appearance of key reasoning
phrases (namely reasoning pattern reward, RPR), such as ``first, I need
to''-without verifying the correctness of answers, the model achieved peak
downstream performance (over 70% accuracy for Qwen-2.5-7B) comparable to models
trained with strict correctness verification and accurate rewards. Recognizing
the importance of the reasoning process over the final results, we combined RPR
with noisy reward models. RPR helped calibrate the noisy reward models,
mitigating potential false negatives and enhancing the LLM's performance on
open-ended tasks. These findings suggest the importance of improving models'
foundational abilities during the pre-training phase while providing insights
for advancing post-training techniques. Our code and scripts are available at
https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.Summary
AI-Generated Summary