추론인가, 암기인가? 데이터 오염으로 인한 강화 학습의 신뢰할 수 없는 결과
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
July 14, 2025
저자: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI
초록
대규모 언어 모델(LLM)의 추론 능력은 오랫동안 연구의 초점이 되어 왔다. 최근 연구들은 강화 학습(RL)을 활용하여 이러한 능력을 더욱 향상시켰으며, 많은 새로운 방법들이 최소한의 외부 감독 또는 감독 없이도 상당한 개선을 주장하고 있다. 놀랍게도, 일부 연구에서는 무작위 또는 잘못된 보상 신호가 추론 성능을 향상시킬 수 있다고 제안하기도 한다. 그러나 이러한 돌파구는 주로 Qwen2.5 모델 패밀리에서 보고되며, MATH-500, AMC, AIME와 같은 잘 알려진 벤치마크에서 평가된 반면, Llama와 같은 다른 모델에서는 유사한 성과를 달성하지 못해 추가 연구가 필요하다. 우리의 분석에 따르면, Qwen2.5는 강력한 수학적 추론 성능을 달성하지만, 대규모 웹 코퍼스에 대한 사전 학습으로 인해 인기 있는 벤치마크에서 데이터 오염에 취약하다. 결과적으로, 이러한 벤치마크에서 도출된 결과는 신뢰할 수 없을 가능성이 있다. 이를 해결하기 위해, 우리는 임의의 길이와 난이도의 완전히 합성된 산술 문제를 생성하는 생성기를 도입하여 RandomCalculation이라는 깨끗한 데이터셋을 생성한다. 이러한 누출 없는 데이터셋을 사용하여, 정확한 보상 신호만이 일관적으로 성능을 향상시키는 반면, 노이즈가 있거나 잘못된 신호는 그렇지 않음을 보여준다. 우리는 신뢰할 수 있는 결론을 보장하기 위해 오염되지 않은 벤치마크와 다양한 모델 패밀리에서 RL 방법을 평가할 것을 주장한다.
English
The reasoning capabilities of large language models (LLMs) have been a
longstanding focus of research. Recent works have further enhanced these
capabilities using reinforcement learning (RL), with many new methods claiming
significant improvements with minimal or no external supervision. Surprisingly,
some studies even suggest that random or incorrect reward signals can enhance
reasoning performance. However, these breakthroughs are mostly reported on the
Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500,
AMC, and AIME, while failing to achieve similar gains on other models like
Llama, which warrants further investigation. Our analysis shows that although
Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on
large-scale web corpora makes it vulnerable to data contamination in popular
benchmarks. As a result, results derived from these benchmarks may be
unreliable. To address this, we introduce a generator that produces fully
synthetic arithmetic problems of arbitrary length and difficulty, yielding a
clean dataset we call RandomCalculation. Using these leakage-free datasets, we
show that only accurate reward signals consistently improve performance, while
noisy or incorrect signals do not. We advocate for evaluating RL methods on
uncontaminated benchmarks and across diverse model families to ensure
trustworthy conclusions.