Redeneren of Memoriseren? Onbetrouwbare Resultaten van Reinforcement Learning Door Datavervuiling
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
July 14, 2025
Auteurs: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI
Samenvatting
De redeneervaardigheden van grote taalmmodellen (LLMs) zijn al lang een belangrijk onderzoeksfocus. Recente studies hebben deze vaardigheden verder verbeterd door gebruik te maken van reinforcement learning (RL), waarbij veel nieuwe methoden aanzienlijke verbeteringen claimen met minimale of geen externe begeleiding. Verrassend genoeg suggereren sommige onderzoeken zelfs dat willekeurige of incorrecte beloningssignalen de redeneerprestaties kunnen verbeteren. Deze doorbraken worden echter voornamelijk gerapporteerd op de Qwen2.5-modelfamilie en geëvalueerd op bekende benchmarks zoals MATH-500, AMC en AIME, terwijl vergelijkbare resultaten uitblijven bij andere modellen zoals Llama, wat verder onderzoek rechtvaardigt. Onze analyse toont aan dat hoewel Qwen2.5 sterke wiskundige redeneerprestaties behaalt, de pretraining op grootschalige webcorpora het kwetsbaar maakt voor datacontaminatie in populaire benchmarks. Hierdoor kunnen resultaten afgeleid van deze benchmarks onbetrouwbaar zijn. Om dit aan te pakken, introduceren we een generator die volledig synthetische rekenproblemen van willekeurige lengte en moeilijkheidsgraad produceert, wat resulteert in een schone dataset die we RandomCalculation noemen. Met behulp van deze lekvrije datasets tonen we aan dat alleen accurate beloningssignalen consistent tot prestatieverbeteringen leiden, terwijl ruisachtige of incorrecte signalen dit niet doen. Wij pleiten voor de evaluatie van RL-methoden op niet-gecontamineerde benchmarks en over diverse modelfamilies om betrouwbare conclusies te waarborgen.
English
The reasoning capabilities of large language models (LLMs) have been a
longstanding focus of research. Recent works have further enhanced these
capabilities using reinforcement learning (RL), with many new methods claiming
significant improvements with minimal or no external supervision. Surprisingly,
some studies even suggest that random or incorrect reward signals can enhance
reasoning performance. However, these breakthroughs are mostly reported on the
Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500,
AMC, and AIME, while failing to achieve similar gains on other models like
Llama, which warrants further investigation. Our analysis shows that although
Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on
large-scale web corpora makes it vulnerable to data contamination in popular
benchmarks. As a result, results derived from these benchmarks may be
unreliable. To address this, we introduce a generator that produces fully
synthetic arithmetic problems of arbitrary length and difficulty, yielding a
clean dataset we call RandomCalculation. Using these leakage-free datasets, we
show that only accurate reward signals consistently improve performance, while
noisy or incorrect signals do not. We advocate for evaluating RL methods on
uncontaminated benchmarks and across diverse model families to ensure
trustworthy conclusions.