Raisonnement ou mémorisation ? Résultats peu fiables de l'apprentissage par renforcement dus à la contamination des données
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
July 14, 2025
papers.authors: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang Zhang, Qi Zhang
cs.AI
papers.abstract
Les capacités de raisonnement des grands modèles de langage (LLMs) constituent depuis longtemps un axe central de la recherche. Des travaux récents ont encore amélioré ces capacités en utilisant l'apprentissage par renforcement (RL), avec de nombreuses nouvelles méthodes revendiquant des améliorations significatives avec une supervision externe minimale voire inexistante. Étonnamment, certaines études suggèrent même que des signaux de récompense aléatoires ou incorrects peuvent améliorer les performances de raisonnement. Cependant, ces avancées sont principalement rapportées sur la famille de modèles Qwen2.5 et évaluées sur des benchmarks bien connus tels que MATH-500, AMC et AIME, tout en échouant à obtenir des gains similaires sur d'autres modèles comme Llama, ce qui justifie des investigations plus poussées. Notre analyse montre que bien que Qwen2.5 atteigne de solides performances en raisonnement mathématique, son pré-entraînement sur des corpus web à grande échelle le rend vulnérable à la contamination des données dans les benchmarks populaires. Par conséquent, les résultats issus de ces benchmarks peuvent être peu fiables. Pour remédier à cela, nous introduisons un générateur produisant des problèmes arithmétiques entièrement synthétiques de longueur et difficulté arbitraires, créant ainsi un ensemble de données propre que nous appelons RandomCalculation. En utilisant ces ensembles de données exempts de fuites, nous montrons que seuls des signaux de récompense précis améliorent systématiquement les performances, tandis que des signaux bruités ou incorrects n'y parviennent pas. Nous préconisons d'évaluer les méthodes RL sur des benchmarks non contaminés et à travers diverses familles de modèles pour garantir des conclusions fiables.
English
The reasoning capabilities of large language models (LLMs) have been a
longstanding focus of research. Recent works have further enhanced these
capabilities using reinforcement learning (RL), with many new methods claiming
significant improvements with minimal or no external supervision. Surprisingly,
some studies even suggest that random or incorrect reward signals can enhance
reasoning performance. However, these breakthroughs are mostly reported on the
Qwen2.5 model family and evaluated on well-known benchmarks such as MATH-500,
AMC, and AIME, while failing to achieve similar gains on other models like
Llama, which warrants further investigation. Our analysis shows that although
Qwen2.5 achieves strong mathematical reasoning performance, its pretraining on
large-scale web corpora makes it vulnerable to data contamination in popular
benchmarks. As a result, results derived from these benchmarks may be
unreliable. To address this, we introduce a generator that produces fully
synthetic arithmetic problems of arbitrary length and difficulty, yielding a
clean dataset we call RandomCalculation. Using these leakage-free datasets, we
show that only accurate reward signals consistently improve performance, while
noisy or incorrect signals do not. We advocate for evaluating RL methods on
uncontaminated benchmarks and across diverse model families to ensure
trustworthy conclusions.