Redeneren of Memoriseren? Onbetrouwbare Resultaten van Reinforcement Learning Door Datavervuiling

Samenvatting

De redeneervaardigheden van grote taalmmodellen (LLMs) zijn al lang een belangrijk onderzoeksfocus. Recente studies hebben deze vaardigheden verder verbeterd door gebruik te maken van reinforcement learning (RL), waarbij veel nieuwe methoden aanzienlijke verbeteringen claimen met minimale of geen externe begeleiding. Verrassend genoeg suggereren sommige onderzoeken zelfs dat willekeurige of incorrecte beloningssignalen de redeneerprestaties kunnen verbeteren. Deze doorbraken worden echter voornamelijk gerapporteerd op de Qwen2.5-modelfamilie en geëvalueerd op bekende benchmarks zoals MATH-500, AMC en AIME, terwijl vergelijkbare resultaten uitblijven bij andere modellen zoals Llama, wat verder onderzoek rechtvaardigt. Onze analyse toont aan dat hoewel Qwen2.5 sterke wiskundige redeneerprestaties behaalt, de pretraining op grootschalige webcorpora het kwetsbaar maakt voor datacontaminatie in populaire benchmarks. Hierdoor kunnen resultaten afgeleid van deze benchmarks onbetrouwbaar zijn. Om dit aan te pakken, introduceren we een generator die volledig synthetische rekenproblemen van willekeurige lengte en moeilijkheidsgraad produceert, wat resulteert in een schone dataset die we RandomCalculation noemen. Met behulp van deze lekvrije datasets tonen we aan dat alleen accurate beloningssignalen consistent tot prestatieverbeteringen leiden, terwijl ruisachtige of incorrecte signalen dit niet doen. Wij pleiten voor de evaluatie van RL-methoden op niet-gecontamineerde benchmarks en over diverse modelfamilies om betrouwbare conclusies te waarborgen.

English

The reasoning capabilities of large language models (LLMs) have been a longstanding focus of research. Recent works have further enhanced these capabilities using reinforcement learning (RL), with many new methods claiming significant improvements with minimal or no external supervision. Surprisingly, some studies even suggest that random or incorrect reward signals can enhance reasoning performance. However, these breakthroughs are mostly reported on the Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500, AMC, and AIME, while failing to achieve similar gains on other models like Llama, which warrants further investigation. Our analysis shows that although Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on large-scale web corpora makes it vulnerable to data contamination in popular benchmarks. As a result, results derived from these benchmarks may be unreliable. To address this, we introduce a generator that produces fully synthetic arithmetic problems of arbitrary length and difficulty, yielding a clean dataset we call RandomCalculation. Using these leakage-free datasets, we show that only accurate reward signals consistently improve performance, while noisy or incorrect signals do not. We advocate for evaluating RL methods on uncontaminated benchmarks and across diverse model families to ensure trustworthy conclusions.

Redeneren of Memoriseren? Onbetrouwbare Resultaten van Reinforcement Learning Door Datavervuiling

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

Samenvatting

Support