推論か記憶か?データ汚染による強化学習の信頼性低下
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
July 14, 2025
著者: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI
要旨
大規模言語モデル(LLMs)の推論能力は、長年にわたり研究の焦点となってきた。最近の研究では、強化学習(RL)を用いてこれらの能力をさらに向上させており、多くの新手法が外部監視を最小限または全く必要とせずに大幅な改善を主張している。驚くべきことに、一部の研究では、ランダムまたは誤った報酬信号が推論性能を向上させる可能性さえ示唆されている。しかし、これらのブレークスルーは主にQwen2.5モデルファミリーで報告され、MATH-500、AMC、AIMEなどのよく知られたベンチマークで評価されている一方で、Llamaなどの他のモデルでは同様の成果が得られていないため、さらなる調査が必要である。我々の分析によれば、Qwen2.5は強力な数学的推論性能を達成しているものの、大規模なウェブコーパスでの事前学習により、人気のあるベンチマークでのデータ汚染に対して脆弱である。その結果、これらのベンチマークから得られた結果は信頼性に欠ける可能性がある。この問題に対処するため、任意の長さと難易度の完全に合成された算術問題を生成するジェネレータを導入し、RandomCalculationというクリーンなデータセットを作成した。これらの漏洩のないデータセットを使用して、正確な報酬信号のみが一貫して性能を向上させる一方で、ノイズの多いまたは誤った信号は効果がないことを示した。我々は、信頼できる結論を確保するために、RL手法を汚染のないベンチマークで評価し、多様なモデルファミリーにわたって検証することを提唱する。
English
The reasoning capabilities of large language models (LLMs) have been a
longstanding focus of research. Recent works have further enhanced these
capabilities using reinforcement learning (RL), with many new methods claiming
significant improvements with minimal or no external supervision. Surprisingly,
some studies even suggest that random or incorrect reward signals can enhance
reasoning performance. However, these breakthroughs are mostly reported on the
Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500,
AMC, and AIME, while failing to achieve similar gains on other models like
Llama, which warrants further investigation. Our analysis shows that although
Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on
large-scale web corpora makes it vulnerable to data contamination in popular
benchmarks. As a result, results derived from these benchmarks may be
unreliable. To address this, we introduce a generator that produces fully
synthetic arithmetic problems of arbitrary length and difficulty, yielding a
clean dataset we call RandomCalculation. Using these leakage-free datasets, we
show that only accurate reward signals consistently improve performance, while
noisy or incorrect signals do not. We advocate for evaluating RL methods on
uncontaminated benchmarks and across diverse model families to ensure
trustworthy conclusions.